FRANCISCO MERCÊS DE MELLO RITA CABRAL GUIMARÃES. Métodos Estatísticos. para o Ensino e a Investigação nas. Ciências da Saúde

FRANCISCO MERCÊS DE MELLO RITA CABRAL GUIMARÃES Métodos Estatísticos para o Ensino e a Investigação nas Ciências da Saúde Com exemplos extraídos de revistas e publicações médicas Apresentação e utilização do SPSS Favor tratamento Favor placebo 1.00 0.00 1.00 2.00 3.00 Prefácio Prof. Alexandre Castro Caldas EDIÇÕES SÍLABO

Métodos Estatísticos para o Ensino e a Investigação nas Ciências da Saúde Com Utilização do SPSS FRANCISCO MERCÊS DE MELLO RITA CABRAL GUIMARÃES EDIÇÕES SÍLABO

É expressamente proibido reproduzir, no todo ou em parte, sob qualquer forma ou meio, NOMEADAMENTE FOTOCÓPIA, esta obra. As transgressões serão passíveis das penalizações previstas na legislação em vigor. Visite a Sílabo na rede www.silabo.pt Editor: Manuel Robalo FICHA TÉCNICA: Título: Métodos Estatísticos para o Ensino e a Investigação nas Ciências da Saúde Com utilização do SPSS Autores: Francisco Mercês de Mello, Rita Cabral Guimarães Edições Sílabo, Lda. Capa: Pedro Mota 1ª Edição Lisboa, julho de 2015 Impressão e acabamentos: Europress, Lda. Depósito Legal: 395231/15 ISBN: 978-972-618-805-6 EDIÇÕES SÍLABO, LDA. R. Cidade de Manchester, 2 1170-100 Lisboa Tel.: 218130345 Fax: 218166719 e-mail: silabo@silabo.pt www.silabo.pt

Índice Agradecimentos 13 Palavras prévias 15 Prefácios 17 Introdução 19 Capítulo 1 Conceitos básicos da estatística e da análise exploratória dos dados 1.1. Introdução 21 1.2. Conceitos básicos 21 1.3. Medição e escalas de medição 22 1.4. Ordenação dos dados 23 1.5. Dados agrupados: distribuição de frequências 23 1.6. Estatística descritiva 28 1.6.1. Medidas de localização 28 1.6.2. Medidas de dispersão 31 1.6.3. Medidas de forma 33 Capítulo 2 Princípios básicos de utilização do SPSS 2.1. Introdução 37 2.2. Como iniciar o SPSS 37 2.3. Como criar um ficheiro de dados no SPSS 39 2.4. Tratamento e apresentação dos dados 44 2.4.1. Tabela de frequências 44 2.4.2. Estatística descritiva 48

2.5. Como calcular uma nova variável a partir de outra existente 51 2.6. Como calcular variáveis a partir de datas 55 Capítulo 3 Exemplos de aplicação do SPSS a casos concretos de estatística descritiva 3.1. Introdução 61 3.2. Exemplos de aplicação 61 Capítulo 4 Probabilidade 4.1. Introdução 79 4.2. Conceitos de probabilidade 79 4.3. Algumas propriedades e teoremas 80 4.4. Distribuições discretas 82 4.5. Distribuições contínuas 86 Capítulo 5 Distribuições amostrais 5.1. Introdução 93 5.2. Teorema do limite central 94 5.3. Parâmetros de uma população 94 5.3.1. Distribuição amostral da média, x 94 5.3.2. Distribuição amostral de uma proporção 96 5.3.3. Distribuição amostral da variância 97 5.4. Parâmetros de duas populações 97 5.4.1. Distribuição da diferença entre duas médias amostrais 97 5.4.2. Distribuição amostral para a diferença entre duas proporções populacionais 101 5.4.3. Distribuição amostral para o quociente entre variâncias 102

Capítulo 6 Estimação pontual e intervalar 6.1. Introdução 105 6.2. Estimação pontual 105 6.3. Estimação intervalar 105 Capítulo 7 Testes de hipóteses 7.1. Introdução 115 7.2. Hipóteses estatísticas 115 7.3. Estatística de teste 117 7.4. Nível de significância 117 7.5. Valores críticos e região de rejeição de um teste de hipótese 117 7.6. Erro associado a uma decisão estatística 121 7.7. Probabilidade de significância (p-value) 121 7.8. Cálculo das probabilidades de cometer um erro tipo I e tipo II. Função potência 126 7.9. Comparação conjunta dos erros tipo II e potência para testes de hipóteses bilaterais e unilaterais 129 7.10. Testes de hipóteses vs. intervalos de confiança 130 7.11. Como calcular o valor-p com o SPSS 131 Capítulo 8 Amostragem 8.1. Introdução 133 8.2. Dimensão da amostra 133 8.2.1. Nomograma de Altman para cálculo da dimensão da amostra 136 8.2.2. Fórmula rápida de Lehr 137 8.3. Métodos de seleção de amostras 138

Capítulo 9 Comparação de dados categóricos em amostras independentes 9.1. Introdução 141 9.2. Teste do qui-quadrado 141 9.3. Teste de Fisher 146 9.4. Medidas de força da associação/efeito: risco relativo e odds ratio 147 Capítulo 10 Testes para analisar a normalidade dos dados e a homogeneidade das variâncias 10.1. Introdução 167 10.2. Análise da normalidade 167 10.3. Análise da homogeneidade das variâncias 173 Capítulo 11 Testes t-student 11.1. Teste t-student para uma amostra 177 11.2. Teste t-student para comparação de dados numéricos em duas amostras 180 11.2.1. Teste t-student para duas amostras independentes 180 11.2.2. Teste t-student para duas amostras emparelhadas 184 Capítulo 12 Comparação de dados numéricos em mais de duas amostras independentes. Análise de variância 12.1. Introdução 189 12.2. Os diferentes tipos de ANOVA 190 12.3. Delineamentos completamente casualizados 190 12.4. Delineamentos em blocos completamente casualizados 197 12.5. Delineamentos com medições repetidas (one way ANOVA) 207 12.6. Experiências fatoriais 213 12.6.1. Classificação dupla cruzada 214

12.6.2. Esquema de dois fatores completamente casualizados 214 12.7. Modelo a dois fatores misto 225 Capítulo 13 Regressão linear. Correlação 13.1. Introdução 233 13.2. O modelo de regressão linear simples 233 13.3. Pressupostos do modelo de regressão linear simples 234 13.4. Correlação paramétrica 234 13.5. Correlação não paramétrica 238 13.6. Coeficiente de correlação bisserial por pontos 240 13.7. O Modelo de regressão linear múltipla 250 13.7.1. Coeficientes de regressão parciais 251 13.7.2. Coeficiente de determinação múltipla 251 13.7.3. Coeficiente de correlação parcial 251 13.7.4. Testes de hipóteses 252 13.7.5. Escolha do processo de seleção de variáveis 253 13.8. Variáveis independentes categóricas 261 Capítulo 14 Testes não paramétricos 14.1. Introdução 263 14.2. Teste de Kolmogorov-Smirnov 263 14.3. Teste binomial 264 14.4. Teste do qui-quadrado 267 14.5. Teste de Fisher 267 14.6. Teste de Mann-Whitney 267 14.7. Teste de Kruskall-Wallis 271 14.8. Teste dos sinais 273 14.9. Teste de Wilcoxon 276 14.10. Teste de McNemar 278 14.11. Teste de Cochran 280 14.12. Teste de Friedman 282

Capítulo 15 Testes de diagnóstico. Curva ROC 15.1. Introdução 285 15.2. Definições. Cálculos 286 15.2.1. Probabilidade condicional e testes de diagnóstico 289 15.3. Curva ROC 291 Capítulo 16 Regressão logística simples e múltipla 16.1. Introdução 299 16.2. Categorização das variáveis independentes 303 16.3. Esquema geral de procedimento para efetuar uma análise de regressão logística com SPSS 306 16.4. Regressão logística politómica 323 16.4.1. Testes de significância 325 16.4.2. Interpretação dos parâmetros 325 16.5. Regressão ordinal 330 16.5.1. Avaliação da qualidade do modelo 331 16.5.2. Classificação com o modelo de regressão ordinal 332 Capítulo 17 Confundimento e modificação de efeitos 17.1. Introdução 339 17.2. Estatísticas de Mantel-Haenszel 339 17.3. Como analisar confundimento e modificação de efeito 342 17.3.1. Inexistência de confundimento e de interação 343 17.3.2. Existência de confundimento sem interação 347 17.3.3. Existência de interação sem confundimento 350 17.3.4. Existência de confundimento e de interação 352 17.4. Comparação da regressão logística com a análise estratificada em tabelas 2 2 354

Capítulo 18 Análise de sobrevivência 18.1. Introdução 357 18.2. Método actuarial 357 18.3. Método de Kaplan-Meier 362 18.4. Comparação de curvas de sobrevivência 364 18.4.1. Comparação pontual 364 18.4.2. Comparação global 365 18.5. Taxas de incidência cumulativa 374 Capítulo 19 Análise de regressão de Cox 19.1. Introdução 377 19.2. Coeficientes de regressão parciais 378 19.3. Testes de hipóteses a efetuar 380 19.4. Validação dos pressupostos do modelo 382 19.5. Modelos paramétricos 403 Capítulo 20 Análise de regressão de Poisson 20.1. Introdução 407 20.2. Razão de taxas de incidência 408 Capítulo 21 Meta-análise 21.1. Introdução 425 21.2. Modelos de efeitos fixos e modelos de efeitos aleatórios 426 21.3. Heterogeneidade estatística 426 21.4. Gráfico dos resultados (forest plot) 427

Anexo 1 Tabelas para a distribuição normal 431 Anexo 2 Tabelas para a distribuição t-student 437 Anexo 3 Tabelas para a distribuição de qui-quadrado 441 Anexo 4 Tabelas para a distribuição de F-Snedecor 443 Referências bibliográficas 451 Índice remissivo 457

Agradecimentos Os autores vêm expressar o seu agradecimento ao Sr. Dr. Luís Santos, Chefe de Serviço de Patologia Clínica, Diretor Técnico do Serviço de Patologia Clínica do Hospital de Cascais Dr. José de Almeida, pelo incentivo constante que lhes deu para a concretização deste livro, juntamente com o esclarecimento que lhes foi prestando quanto a variados termos médicos e à revisão final que se dignou a fazer a esta obra. Ao Professor Doutor Pedro Aguiar, do Instituto Nacional de Saúde Pública, os autores agradecem os esclarecimentos que deu às varias questões que lhe apresentaram e à forma amável como para tal se disponibilizou. Ao Sr. Dr. António Paula Brito Pina, da ARS do Algarve IP, agradecemos a pronta autorização que nos concedeu para usar os seus textos e dados de obras por si publicadas. Ao Sr. Dr. Frederico do Rosário, do Centro de Saúde de Tondela, agradecemos a forma amável como acolheu as nossas dúvidas, ao ponto de nos deixar utilizar os seus dados e trabalhar connosco no SPSS a regressão de Poisson. Ao Professor Doutor Paulo Margotto os autores querem agradecer a amabilidade com que nos autorizou a usar os deus dados e os seus textos publicados na World Wide Web. Não podíamos deixar de agradecer o acolhimento que tivemos na excelente Biblioteca do Hospital de S. José, na pessoa da sua assistente-técnica Sra. D. Mónica Teixeira. Trata-se de uma funcionária sempre disposta a resolver os nossos inúmeros problemas, de uma forma que consideramos exemplar e com um zelo inexcedível.

Palavras prévias A estatística desempenha um importante papel na pesquisa médica. Odd O. Aalem, da Secção de Estatística Médica da Universidade de Oslo, no ano 2000, escreveu na revista Statistical Methods in Medical Research, um artigo intitulado «Medical Statistics No Time for Complacency». Neste excelente artigo, para além de chamar a atenção para a incerteza, como essência da estatística, aponta um conjunto de fatores que respondem à pergunta do presente capítulo. São eles: A prática médica e a pesquisa médica geram grande quantidade de dados, cheios de incerteza e variabilidade, impondo uma análise apropriada ao tratamento destes dados a análise estatística; Os testes aos tratamentos ou medidas preventivas, na prática apoiam-se na estatística. Isto é verdadeiro para ambos, quer no delineamento, quer na análise. A casualização foi entusiasticamente implementada nas experiências clínicas e a chamada medicina baseada em evidências tem a sua base nos ensaios clínicos e em estudos epidemiológicos. O panorama médico mundial tem fortes aspetos estatísticos. Medidas estatísticas respondem a questões do tipo: «Quão comum é a doença?»; «Qual o fator responsável?»; «Qual a probabilidade de melhorar a sobrevivência?». Por outro lado é importante deixar bem expresso que uma diferença entre comportamentos, estatisticamente significantes, pode não ser clinicamente «importante». A importância em termos biológicos não deve ser julgada pelos estatísticos, mas sim pelos profissionais da área em que a pesquisa está sendo feita.

Prefácios Os métodos quantitativos de investigação dominam hoje a literatura biomédica. Ao longo dos anos a metodologia estatística tem vindo a refinar a sua capacidade de valorização dos resultados obtidos na experimentação, enriquecendo assim a oferta das opções e das aplicações. Os cálculos estatísticos deixaram há muito de ser realizados com papel e lápis ou com o recurso à regra de cálculo, passaram a integrar programas complexos de que os utilizadores desconhecem as regras matemáticas que os suportam. Desta forma, os profissionais não acompanharam a evolução das metodologias estatísticas e recorrem à aparente simplicidade do teclado de um computador para realizar os seus estudos. Nada mais passível de erro do que fazê-lo desta forma. A estatística é um componente da metodologia da investigação que deve ser ponderada com conhecimento das suas regras de utilização, no mesmo momento em que se planeia um estudo. Não é qualquer coisa que se aplica aos resultados para lhes dar uma tonalidade de verdade. Por outro lado, mesmo quando bem utilizada a metodologia, muitos leitores dos trabalhos publicados se confundem na leitura e interpretação dos resultados. O presente trabalho escrito com a clareza, que só quem viveu explicando consegue imprimir, é um auxílio de extrema utilidade, não só para quem se queira envolver na investigação biomédica, mas também para quem necessita de compreender a linguagem da maioria dos trabalhos publicados. É certo que não é o único livro sobre o assunto disponível nas livrarias mas é, decerto, dos que melhor conjugam o rigor que a metodologia requer, com a simplicidade do texto. O recurso aos exemplos reais é sem sombra de dúvida, mais um dos argumentos que pode justificar a recomendação deste livro aos profissionais de saúde. Prof. Doutor Alexandre Castro Caldas Professor Catedrático Diretor do Instituto de Ciências da Saúde Universidade Católica Portuguesa

O trabalho que agora se publica materializa a difícil tarefa de disponibilizar aos investigadores em Ciências da Saúde os indispensáveis instrumentos de análise estatística, não ignorando que a maioria dos interessados não possui conhecimentos aprofundados de métodos de análise matemática, mas sem descurar o rigor teórico exigido a qualquer texto de carácter científico. Para tanto, os autores começam por apresentar os conceitos fundamentais da análise estatística servindo-se de exemplos retirados de casos clínicos descritos nas principais revistas médicas. Em simultâneo mostram como pode ser utilizado o programa informático SPSS para implementação dos métodos de análise. Para além dos testes estatísticos mais habitualmente utilizados neste tipo de investigação, os autores alargam o seu trabalho aos mais recentes modelos de regressão logística, de Cox e de Poisson e à meta-análise, na sua formulação gráfica «forest plot». A riquesa e a variedade da centena de casos apresentados no livro fazem dele um singular instrumento de trabalho que merecerá sem dúvida o interesse dos profissionais do sector das Ciências da Saúde. E para aqueles que quiserem ir mais longe no estudo destas questões, a extensa lista de Referências Bibliográficas e obras consultadas constitui uma preciosa orientação. Prof. Doutor Fernando Brito Soares Professor Catedrático da Faculdade de Economia da Universidade Nova de Lisboa

Introdução Qualquer projeto de investigação em Ciências da Saúde, tem necessariamente de se complementar com estudos bioestatísticos. Os autores possuem uma formação no âmbito da Biologia e da Estatística, tendo até o primeiro autor regido uma disciplina de Bioestatística no Instituto Superior das Ciências da Saúde, a convite do seu Presidente, Professor Manuel Halpern, nos anos letivos de 1994/95 e 1995/96. Talvez por este facto, e incentivados por médicos amigos, começaram há 3 anos a «construir» este livro, vendo hoje com regozijo, que valeu a pena o trabalho destes anos, já que esta ambição se concretizou. Para melhor entenderem o largo espectro da aplicação da Estatística na investigação nas Ciências da Saúde e tomarem contacto com a terminologia, testes e modelos mais utilizados, os autores consultaram cerca de uma centena de revistas médicas cientificas (vários volumes e números) que estão identificadas em Anexo, e que lhes permitiram dispor de uma vasta coleção de dados. O package estatístico utilizado foi o SPSS 21, versão para Windows. Procurou-se não sobrecarregar o leitor com cálculos manuais extensos e matematicamente pesados, nos cerca de 100 exemplos resolvidos, partindo quase sempre de dados reais e recorrendo ao SPSS. Procurou-se, em síntese, fazer com que o leitor olhe amigavelmente para este programa, que resolve em poucos segundos aquilo que, manualmente, poderia levar horas. O livro contém 21 capítulos e vários anexos. Nos primeiros capítulos, faz-se uma revisão dos conceitos básicos da Estatística, uma descrição do ambiente SPSS e incluem-se exemplos resolvidos neste Software, sobre estatística descritiva. Segue-se depois uma abordagem à noção de probabilidade, às distribuições amostrais e aos tipos de amostragem. Posteriormente, trata-se da comparação de dados categóricos e dados numéricos em duas ou mais amostras independentes, fazendo intervir o teste do qui- -quadrado, o teste t-student (também para variáveis emparelhadas) e o teste F da análise de variância (ANOVA). Estudaram-se o modelo de regressão e a correlação e os diferentes testes não paramétricos. Tratam-se a seguir as medidas de força da associação ou efeito, através dos odds ratios, risco relativo e da diferença de risco. Nos capítulos finais, aborda-se a parte mais complexa constituída pelos modelos de regressão logística, análise de sobrevivência, de regressão de Cox e regressão de Poisson. O livro termina com uma referência à meta-análise, principalmente no que toca à sua representação gráfica (forest plot).

Capítulo 1 Conceitos básicos da estatística e da análise exploratória dos dados 1.1. Introdução O objetivo deste capítulo é tratar da organização, condensação e apresentação da informação extraída de um conjunto de dados, de forma a caracterizar quantitativamente o objetivo do estudo. Nisto consiste a estatística descritiva, etapa indispensável à inferência estatística, que, como veremos adiante, integra um conjunto de técnicas que permitem tirar ilações acerca das características da população. 1.2. Conceitos básicos Variável, é uma característica que muda de pessoa para pessoa, de local para local, de instante para instante. Como exemplo, podemos referir a pressão sanguínea diastólica. Variáveis quantitativas, são aquelas que podem ser medidas no sentido usual do termo. Por exemplo, podemos medir as alturas de crianças numa escola, conhecer as idades de doentes numa clínica, avaliar o teor em ácido úrico, etc. Variáveis qualitativas, são aquelas que são identificadas apenas pela atribuição de um nome que designa uma classe, podendo estas classes ser ou não ordenáveis. Como exemplo podemos referir a cor dos olhos das pessoas, as classificações de muito bom,

22 MÉTODOS ESTATÍSTICOS PARA O ENSINO E A INVESTIGAÇÃO NAS CIÊNCIAS DA SAÚDE bom, suficiente, medíocre e mau, obtidas por alunos em testes. Evidentemente será depois possível fazer contagens nas diferentes categorias. Variável aleatória, é aquela que, antecipadamente, não pode ser exatamente predita. É o caso, por exemplo, da altura de um adulto. Variável aleatória discreta, é aquela que apresenta interrupções nos valores que pode assumir. Por exemplo, o número de doentes que deram entrada na urgência de um hospital é traduzido por números inteiros como 0, 1, 2, etc., mas nunca poderá ser, por exemplo, 1,2 ou 3,8, etc. Variável aleatória contínua, é aquela que, ao contrário da anterior, não apresenta interrupções nos seus valores, podendo assumir qualquer valor dentro de determinado intervalo. É o caso, por exemplo, da altura de um indivíduo, já que podemos teoricamente encontrar outra pessoa com altura inferior ou superior à dada. População, é uma coleção de entidades para as quais estamos interessados num determinado tempo. Por exemplo, a população estudantil que frequentou em 2009 o ensino básico na cidade de Lisboa. As populações podem ser finitas ou infinitas. Amostra, é um subconjunto de uma população, selecionada com o objetivo de estudar propriedades particulares da população de interesse. 1.3. Medição e escalas de medição Quando dispomos dos valores de uma variável usa-se uma escala de medição apropriada. A escala de medição permite atribuir números com significado, de acordo com regras específicas, aos elementos em estudo. Deve analisar-se cuidadosamente o tipo de escala a utilizar, pois as operações aritméticas não são válidas para todas as escalas. Na Escala nominal, incluem-se as variáveis cujas modalidades ou categorias quantitativas são mutuamente exclusivas e não hierarquizáveis. Quando se atribuem números às diferentes classes, estes são utilizados como se fossem simples nomes, não gozam de qualquer tipo de propriedade aritmética. Apenas se podem fazer contagens dentro do mesmo código da categoria. Na Escala ordinal, as diferentes modalidades da variável podem ser ordenadas de acordo com determinado critério. Não é igualmente possível efetuar, com os números de uma escala ordinal, qualquer operação aritmética. Na Escala intervalar, são válidas relações de ordem e as operações de soma e subtração. Como a origem da escala é arbitrária, não são legítimas as operações de multiplicação e divisão. A temperatura é um exemplo de variável de escala intervalar.

CONCEITOS BÁSICOS DA ESTATÍSTICA E DA ANÁLISE EXPLORATÓRIA DOS DADOS 23 Na Escala de razão, são possíveis todas as operações aritméticas, já que a origem é fixa correspondendo sempre ao valor zero, que representa a ausência total da variável medida. São exemplo de escalas de razão, o tempo, o peso, etc. 1.4. Ordenação dos dados O primeiro passo na organização dos dados é a preparação de um quadro ordenado, isto é, uma lista de valores da coleção (população ou amostra) ordenados por ordem de grandeza, do mais baixo ao mais elevado, tarefa facilitada pelo uso de um computador. 1.5. Dados agrupados: distribuição de frequências A principal finalidade de agrupamento dos dados é a sua sumarização, tornando mais fácil determinar a natureza da informação. Para agrupar um conjunto de observações, devemos selecionar um conjunto de intervalos contíguos e não sobrepostos, de forna a que cada valor do conjunto das observações possa ser colocado apenas num só intervalo. Estes intervalos são designados por intervalos de classe. O número de intervalos de classe deve, em princípio, oscilar entre 5 e 15. A fórmula de Sturges deve guiar-nos na escolha do número K de classes. Esta fórmula diz-nos que K = 1+ 3,322 log10 n sendo n o número total de valores observados. Outra grandeza a calcular é a amplitude da classe, que designamos por a, e se aconselha ser constante para todas as classes. A amplitude da classe pode ser determinada dividindo a amplitude total da variação pelo número de classes: a =, onde R K a é a amplitude da classe, R é a amplitude total da variação (diferença entre o maior e o menor valor dos dados) e K o número de classes.

24 MÉTODOS ESTATÍSTICOS PARA O ENSINO E A INVESTIGAÇÃO NAS CIÊNCIAS DA SAÚDE EXEMPLO 1.1 Suponhamos conhecida a pressão arterial sistólica de 40 indivíduos apresentada no Quadro 1.1. Agrupar os dados em classes e construir a tabela de distribuição de frequências. Quadro 1.1. Pressão arterial sistólica de 40 indivíduos Indivíduo Pressão arterial (mmhg) Indivíduo Pressão arterial (mmhg) 1 122 21 107 2 119 22 112 3 107 23 123 4 118 24 108 5 111 25 102 6 120 26 107 7 133 27 110 8 129 28 118 9 118 29 115 10 121 30 119 11 124 31 118 12 116 32 113 13 119 33 108 14 119 34 105 15 117 35 112 16 111 36 116 17 116 37 109 18 104 38 116 19 122 39 104 20 111 40 113 Resolução Para termos uma ideia sobre o número de classes a usar, podemos aplicar a regra de Sturges: K = 1 + 3, 322 log10 n = 6, 3. Como a amplitude total dos dados é 133 102 = 31, temos, 31 a = = 5,17. Podemos optar por 7 classes com uma amplitude de classe de 5, como se apresenta no Quadro 6 1.2.

CONCEITOS BÁSICOS DA ESTATÍSTICA E DA ANÁLISE EXPLORATÓRIA DOS DADOS 25 Quadro 1.2. Distribuição dos indivíduos pelas classes Número da classe Classe Frequência 1 [100; 105[ 3 2 [105; 110[ 7 3 [110; 115[ 8 4 [115; 120[ 14 5 [120; 125[ 6 6 [125; 130[ 1 7 [130; 135[ 1 Total 40 FIM DE EXEMPLO Frequência relativa. Por vezes, é útil conhecer, não o número de valores que pertencem a cada classe, mas sim a sua proporção. Para tal, dividimos o número de valores de cada classe (chamado frequência absoluta) pelo número total de valores. Assim, para a primeira classe teríamos 340 ou seja 0,075 (ou em percentagem 7,5%). Este valor é designado frequência relativa. Podemos agora construir a tabela, apresentada no Quadro 1.3, com as frequências absolutas acumuladas, frequências relativas e frequências relativas acumuladas, respeitantes ao Exemplo 1.1. Histograma. No caso de variáveis contínuas, as distribuições de frequências são representadas através de histogramas, que são gráficos constituídos por retângulos adjacentes, cujas bases e áreas representam, respetivamente as amplitudes e as frequências das classes. O centro das classes ou ponto médio da classe determina-se calculando a média limite inferior + limite superior aritmética dos limites das classes, ou seja C =. Para 2 100 + 105 a primeira classe teríamos, portanto, C1 = = 102, 5. 2

26 MÉTODOS ESTATÍSTICOS PARA O ENSINO E A INVESTIGAÇÃO NAS CIÊNCIAS DA SAÚDE Quadro 1.3. Frequências referentes ao Exemplo 1.1 Número da classe Classe Frequências absolutas Frequências absolutas acumuladas Frequências relativas Frequências relativas acumuladas 1 [100; 105[ 3 3 0,075 0,075 2 [105; 110[ 7 10 0,175 0,250 3 [110; 115[ 8 18 0,200 0,450 4 [115; 120[ 14 32 0,350 0,800 5 [120; 125[ 6 38 0,150 0,950 6 [125; 130[ 1 39 0,025 0,975 7 [130; 135[ 1 40 0,025 1,000 Total 40 1,000 Na Figura 1.1 indicamos o histograma relativo aos dados do Exemplo 1.1. Figura 1.1. Histograma relativo aos dados do Exemplo 1.1 Histograma 12,5 10,0 Frequência 7,5 5,0 2,5 0,0 1 2 3 4 5 6 7 Classes de pressão arterial sistólica (mmhg)

CONCEITOS BÁSICOS DA ESTATÍSTICA E DA ANÁLISE EXPLORATÓRIA DOS DADOS 27 Polígono de Frequências. A distribuição de frequências pode ser representada graficamente dum outro modo, pelo polígono de frequências. Para a sua construção devem criar-se duas classes adicionais com a mesma amplitude e de frequência nula, uma em cada extremo do histograma. O polígono de frequências obtém-se unindo os pontos médios dos topos dos retângulos através de segmentos de reta. Na Figura 1.2 apresenta-se o polígono de frequências relativo aos dados do Exemplo 1.1. A área total sob o polígono de frequências é igual à área total correspondente ao histograma. Figura 1.2. Polígono de frequências relativo aos dados do Exemplo 1.1 15 Polígono de frequências Frequência 10 5 0 95 100 105 110 115 120 125 130 135 140 Classes de pressão arterial sistólica (mmhg) Diagrama de caule e folhas. É também frequente utilizar-se o diagrama de «caule e folhas» composto por duas colunas designadas por «caule» e «folhas». Normalmente, no caule representam-se os algarismos das unidades de cada observação e, à frente de cada valor, inscrevem-se nas folhas os algarismos representativos da primeira casa decimal de cada observação. Para os dados do Exemplo 1.1, optámos por tomar para a unidade do caule o número 10 e para a unidade das folhas o número 1. Assim, o 10 que se lê na primeira linha do caule significa 100, o 11 que se lê na segunda linha significa 110, etc. Uma vantagem do diagrama de «caule e folhas» sobre o histograma consiste no facto de ele preservar a informação contida nas medidas individuais. Na Figura 1.3 indicamos o diagrama de «caule e folhas» relativo aos dados do Exemplo 1.1.

28 MÉTODOS ESTATÍSTICOS PARA O ENSINO E A INVESTIGAÇÃO NAS CIÊNCIAS DA SAÚDE Figura 1.3. Diagrama de «caule e folhas» relativo aos dados do Exemplo 1.1 Caule 10 11 12 13 Folhas 2 4 4 5 7 7 7 8 8 9 0 1 1 1 2 2 3 3 5 6 6 6 6 7 8 8 8 8 9 9 9 9 0 1 2 2 3 4 9 3 Unidade do caule: 10 Unidade da folha: 1 1.6. Estatística descritiva 1.6.1. Medidas de localização 1.6.1.1. Medidas de Tendência Central A distribuição de frequências e a sua representação gráfica são, sem dúvida, uma importante etapa na análise de dados. Contudo, situações há em que se requerem outros tipos de sumarização dos dados, por meio de medidas descritivas. Estas medidas podem ser calculadas a partir dos dados de uma amostra ou de uma população. Quando a medida descritiva é calculada a partir da amostra chama-se estatística. Se é calculada a partir dos dados de uma população designa-se parâmetro. As medidas de localização podem ser medidas de tendência central ou medidas de tendência não central. Vamos estudar as três medidas de tendência central: média, mediana e moda. Média aritmética ou simplesmente média, representada por X, para a amostra, e n N Xi Xi i = 1 i = 1 igual a X = ou, sendo para a população, representada por μ =. n N n O símbolo indica a soma de todos os valores desde primeiro (1) até ao último i = 1 (n), e designa-se por somatório.

CONCEITOS BÁSICOS DA ESTATÍSTICA E DA ANÁLISE EXPLORATÓRIA DOS DADOS 29 Média harmónica. É o inverso da média aritmética dos inversos dos valores das observações e é igual a Xh = n i = 1 n 1 Xi. Média aparada. É uma média aritmética que é calculada após a eliminação de uma certa percentagem de valores extremos inferiores e superiores. A média aparada a 5% é calculada eliminando 2,5% das observações em cada extremidade da distribuição. É vantajoso utilizá-la quando a distribuição da variável contém valores extremos aberrantes. Mediana. Representa-se por Me e é o centro de posição da distribuição. Corresponde ao valor abaixo e acima do qual se registaram metade das observações. Após a ordenação das observações por ordem crescente a mediana calcula-se do seguinte modo: X n + 1 2 Me = X n + X n + 1 2 2 2 se n é impar se n é par Considerando os valores ordenados: 0; 2; 8; 14; 30. Como n = 5 é impar, vem que Me = X 5+ 1 = X 3, significando que o valor central é o terceiro e a mediana é 8. 2 Quando o conjunto tiver um número par de dados, a mediana é a média dos dois valores centrais. É o caso da série de 4 valores: 1; 4; 8; 100, onde a mediana está na X 4 + X 4 + 1 2 2 posição, ou seja, na posição intermédia entre o 2º e o 3º valores. Calcula-se a média entre estes dois valores e a mediana da série é, portanto, 4 + 8 = 6. 2 2 Repare-se que a mediana pode ser um valor observado ou não, como neste caso. Moda. Representa-se por Mo, é o valor que ocorre com mais frequência. Se todos os valores são diferentes não existe moda. Por outro lado, pode também existir mais do que uma moda. 1.6.1.2. Medidas de Tendência Não Central Quantis. Chamam-se quantis de ordem K aos K 1 valores que dividem o conjunto das observações ordenadas em K partes. Se K = 4, tomam o nome de quartis. Se K = 10, temos os decis e se K = 100 designam-se percentis, pois dividem o conjunto de observações em 100 partes iguais. Para variáveis de escala de razão ou intervalar, define-se o percentil de ordem p, P p, como:

30 MÉTODOS ESTATÍSTICOS PARA O ENSINO E A INVESTIGAÇÃO NAS CIÊNCIAS DA SAÚDE Pp XK + XK + 1 np se K = é inteiro 2 100 =, np X[ K + 1] se K = não é inteiro 100 onde p representa a ordem do percentil e [ K + 1] representa a parte inteira de K + 1. Para variáveis ordinais, Pp np XK se K = é inteiro 100 =. np X[ K + 1] se K = não é inteiro 100 Note-se que a mediana é também um quantil de ordem 2. EXEMPLO 1.2 Suponhamos a seguinte distribuição de frequências das idades (anos) de 90 indivíduos apresentadas no Quadro 1.4. Calcule P 25 e P 70. Quadro 1.4. Idades (anos) numa amostra de 90 indivíduos do sexo masculino Idade Frequência 14 17 15 13 19 20 20 22 30 18 Resolução np 90 25 Para P 25, K = = = 22, 5. 100 100 Como K não é inteiro, o P25 = X[ K + 1] = X[ 23,5] = X23 = 15. np 90 70 Para P 70, K = = = 63. 100 100 X63 + X64 22 + 22 Como K é inteiro, o P70 = = = 22. 2 2 FIM DE EXEMPLO

CONCEITOS BÁSICOS DA ESTATÍSTICA E DA ANÁLISE EXPLORATÓRIA DOS DADOS 31 Cálculo de quantis para dados contínuos. Se a variável é contínua, estando os dados agrupados em classes de frequência, podemos determinar o quantil i, Q i, pela ni cum Fi 1 expressão, Qi = lci + aci, onde l ci é o limite inferior da classe que Fi contém o quantil correspondente, n i é o número de observações, cum Fi 1 são as frequências acumuladas até à classe anterior à do quantil, F i é a frequência da classe do quantil e a ci é a amplitude desta classe. EXEMPLO 1.3 Calcular o 4º decil e o 70º percentil da seguinte distribuição das 40 observações apresentadas no Quadro 1.5. Quadro 1.5. Distribuição de frequências de 40 observações Classe F i cum Fi 1 [5; 10[ 8 8 [10; 15[ 12 20 [15; 20[ 17 37 [20; 25[ 3 40 Resolução 4 O 4º decil deve corresponder àquele que acumula 40 = 16 observações. A classe que contém o 10 16 8 4º decil é [ 10;15 [. Assim o 4º decil é calculado por Decil4 = 10 + 5 = 13, 33 12. O cálculo do 70º percentil faz-se de modo idêntico. Ele acumula 70 100 40 = 28 observações. Ora a 28 20 acumulação das 28 observações cai na classe [ 15; 20 [, portanto, Percentil70 = 15 + 5 = 17 = 17, 35. FIM DE EXEMPLO 1.6.2. Medidas de dispersão As medidas de localização não são suficientes, por si só, para bem caracterizar a distribuição de frequências de uma variável, devendo ser complementadas por medidas que deem uma indicação da dispersão dos valores da variável.

32 MÉTODOS ESTATÍSTICOS PARA O ENSINO E A INVESTIGAÇÃO NAS CIÊNCIAS DA SAÚDE Amplitude. Também chamada de intervalo de variação, R, é dada pela diferença entre os valores extremos, isto é, R = X máximo X mínimo. Amplitude interquartílica. Uma desvantagem da amplitude, R, é o facto de ser calculada apenas com dois valores, o menor e o maior valor observado. Ora a amplitude interquartílica não tendo esta desvantagem reflete a variabilidade das 50% observações centrais e define-se como sendo a diferença entre o terceiro e o primeiro quartil, AIQ = Q3 Q1. Dispondo do conjunto de observações { 9;10;11;18;19; 23; 30 } vê-se que Q 1 = 10 e Q 3 = 23, então, AIQ = Q3 Q1 = 23 10 = 13. 2 Variância. Representada por S, é a soma dos quadrados das diferenças entre os valores observados e a sua média divididos pela dimensão da amostra, ou seja, n ( Xi X ) 2 2 i = 1 S =. Esta fórmula só é válida para amostras grandes. Assim, a n n ( Xi X ) 2 2 i = 1 variância é usualmente calculada pela expressão, S =, designandon 1 -se por variância corrigida. A (n 1) chamamos número de graus de liberdade. Se a variância é calculada para uma população finita de N elementos, então é designada por N ( Xi μ) 2 2 2 i = 1 σ e o seu valor é dado por, σ =. N 1 Desvio padrão. A variância tem o inconveniente de ser expressa no quadrado das unidades respetivas. O desvio padrão, S, pelo contrário, exprime-se na mesma unidade de medida das observações e é dado pela raiz quadrada positiva da variância. O desvio padrão de uma população finita, σ, é obtido extraindo a raiz quadrada à 2 expressão que fornece σ. Coeficiente de variação. O desvio padrão é uma medida de variação muito útil quando nos limitamos a observar um determinado conjunto de dados. Porém, quando desejamos comparar a dispersão em dois conjuntos de dados, deve-se expressar o desvio padrão em valor relativo à média das observações, numa forma adimensional e S geralmente expresso em percentagem, por, CV = 100. X

506 Francisco Mercês de Mello Curso de Engenheiro Agrónomo em 1961 (UTL). Bacharelato em Matemática Aplicada em 1974 (ULM). Doutoramento em Engenharia Agrícola em 1987 (U. Évora). Professor associado (aposentado) da Universidade de Évora. Rita Cabral Guimarães Licenciatura em Engenharia Agrícola em 1993 (U. Évora). Mestrado em Engenharia do Solo e da Água em 1997 (U. Évora). Doutoramento em Engenharia dos Recursos Hídricos em 2005 (U. Évora). Licenciatura em Engenharia Civil em 2013 (U. Évora). Professora auxiliar na Universidade de Évora. Atualmente a estatística é uma ferramenta indispensável para os profissionais na área das ciências da saúde. Conhecer, interpretar e aplicar a teoria e as técnicas estatísticas é fundamental para uma boa investigação, estudo e práticas esclarecidas. Este livro, com evidente cuidado pedagógico, e recorrendo permanentemente a exemplos práticos, apresenta em 21 capítulos e vários anexos todo o instrumental teórico e prático para dotar o leitor de tudo o que necessita para enfrentar os obstáculos que poderá encontrar no seu estudo ou profissão. Nos primeiros capítulos apresenta os conceitos básicos da Estatística e o ambiente e utilização do software SPSS. Depois aborda a noção de probabilidade, as distribuições amostrais e os vários tipos de amostragem. Seguidamente trata da comparação de dados categóricos e dados numéricos em duas ou mais amostras independentes, fazendo intervir o teste do qui- -quadrado, o teste t-student (também para variáveis emparelhadas) e o teste Fda análise de variância (ANOVA). Discute o modelo de regressão e a correlação e os diferentes testes não paramétricos. Nos capítulos seguintes apresenta as medidas de força da associação ou efeito, através dos odds ratio, risco relativo e da diferença de risco. Nos capítulos finais apresenta a parte mais complexa constituída pelos modelos de regressão logística, análise de sobrevivência, regressão de Cox e regressão de Poisson e aborda a meta-análise, principalmente no que diz respeito à sua representação gráfica ( forest plot). Este livro destina-se pois a todos os estudantes e profissionais que, na sua atividade profissional ou nos seus estudos necessitem de aprender ou consolidar os conceitos teóricos estatísticos e a sua respetiva transposição para a prática. O presente trabalho escrito com a clareza, que só quem viveu explicando consegue imprimir, é um auxílio de extrema utilidade, não só para quem se queira envolver na investigação biomédica, mas também para quem necessita de compreender a linguagem da maioria dos trabalhos publicados. (...) O recurso aos exemplos reais é sem sombra de dúvida, mais um dos argumentos que pode justificar a recomendação deste livro aos profissionais de saúde. Prof. Alexandre Castro Caldas Professor Catedrático Diretor do Instituto de Ciências da Saúde Universidade Católica Portuguesa A publicação desta obra teve o apoio: ISBN 978-972-618-805-6 9 789726 188056