HEP 57800 Bioestatística DATA Aula CONTEÚDO PROGRAMÁTICO 05/03 Terça Níveis de mensuração, variáveis, organização de dados, apresentação tabular 07/03 Quinta Apresentação tabular e gráfica /03 Terça 3 Apresentação gráfica; medidas de tendência central e de posição /03 Quinta Medidas de tendência central e de posição; medidas de dispersão ou de variabilidade 9/03 Terça 5 Medidas de correlação, noções de regressão linear simples, estimando a equação da reta /03 Quinta 6 Medidas de associação 6/03 Terça 7 Consolidação de conteúdo - Exercícios 8/03 Quinta 8 Avaliação 09/0 Terça 9 Noções de probabilidade; noções de amostragem; distribuição binomial /0 Quinta 0 Distribuição normal, distribuição amostral da média 6/0 Terça Teste de hipóteses de parâmetros populacionais conceitos; teste de hipóteses de uma proporção populacional 8/0 Quinta Teste de hipóteses de associação 3/0 Terça 3 Teste de hipóteses de uma média populacional 5/0 Quinta Teste de hipóteses de duas médias com amostras independentes e dependentes 30/0 Terça 5 Consolidação de conteúdo Exercícios 0/06 Quinta 6 Estimação de parâmetros por intervalo de confiança: média e proporção 07/05 Terça 7 Exercícios 09/05 Quinta 8 Exercícios /05 Terça 9 Avaliação
Medidas de Média aritmética Mediana Valores mínimo e máximo Amplitude de variação Variância Desvio padrão Coeficiente de variação de Pearson Quartis Percentis Box plot Exercícios
Medidas de Média aritmética Valores individuais Valores em distribuição de freqüência Valores em intervalos de classe 3
Medidas de Notação: X variável N tamanho da população n tamanho da amostra µ média populacional (parâmetro, geralmente desconhecido) X Estatística (fórmula) x média amostral (estimativa, valor calculado na amostra)
Medidas de Média aritmética Definição: Média aritmética é o valor que indica o centro de equilíbrio de uma distribuição de freqüências de uma variável quantitativa. Média aritmética - é a soma dos valores de uma variável, dividida pelo número de valores. Supor a idade (anos) de 5 pessoas: 3, 5, 8,, Média 3 + 5 + 8 + 5 Desvios em torno da média: 8 anos 3 8-5 anos 5 8-3 anos 8 8 0 anos 8 anos 8 anos soma 0 anos 5
Medidas de Média aritmética só existe para variáveis quantitativas e seu valor é único; é da mesma natureza da variável considerada (média 8 anos); e sofre influência dos valores aberrantes (3, 5, 8,, ; média anos) Valores individuais X: idade (anos) 3, 5, 8,, x 3; x 5; x 3 8; x ; x 5 x x + x +... + x n i n n n x i 6
Medidas de Média aritmética Os dados a seguir são provenientes do grupo Western Collaborative Group Study, Califórnia (960-6). Foram estudados 35 homens de meia idade para investigar a relação entre padrões de comportamento e risco de doença coronariana. Os dados apresentados são de 0 homens para os quais foram medidos os níveis de colesterol (mg por 00ml) e realizada uma categorização segundo comportamento. O comportamento de tipo A é caracterizado pela urgência, agressividade e ambição. O de tipo B é relaxado, não competitivo e menos preocupado. Tipo A: nível de colesterol 33 9 3 50 6 97 68 39 39 5 76 3 8 8 5 0 8 35 33 + 9 +... + + 35 x A 5,05mg / 00ml 0 7
Medidas de Média aritmética Tipo B: nível de colesterol 3 85 63 6 88 50 8 69 6 75 5 53 83 37 0 9 3 3 + 6 +... + 69 + 3 x B 0,3mg / 00ml 0 8
Medidas de Média aritmética - Valores em distribuição de freqüências grupo A Colesterol (X) f i x i f i 8 8 97 97 0 0 8 8 33 33 3 3 39 78 6 6 8 8 50 50 5 5 5 5 68 68 76 76 9 9 3 3 35 35 soma 0 90 x 90 0 x 5,05 k x ii i n mg/00ml i representa o i-ésimo valor da variável f i 9
Medidas de Média aritmética - valores em intervalos de classe concentração f i ponto médio (x ipm ) x ipm f i 80,0 --00,0 90 380 00,0 --0,0 3 0 630 0,0 --0,0 5 30 50 0,0 --60,0 5 50 50 60,0 --80,0 70 50 80,0 --300,0 90 90 300,0 --30,0 30 30 30,0 --30,0 330 330 total 0 880 880 x,0mg / 00ml 0 X k i x n ipm f i i representa o i-ésimo intervalo x ipm representa o ponto médio do intervalo, fi é a freqüência de indivíduos no intervalo i, k é o número de intervalos e n o número de observações 0
Medidas de Mediana (Med) É o valor que ocupa a posição central de uma série de n observações, quando estas estão ordenadas de forma crescente ou decrescente. a) valores individuais Quando número de observações (n) for ímpar: a mediana é o valor da variável que ocupa o posto n + Quando o número de observações (n) for par: a mediana é a média aritmética dos valores da variável que ocupam os postos n e n +
Medidas de Mediana (Med) Exemplo: Tipo A: nível de colesterol 33 9 3 50 6 97 68 39 39 5 76 3 8 8 5 0 8 35 Ordenando-se os valores: 8 0 8 33 39 6 50 5 76 3 97 3 39 8 5 68 9 35 Mediana 39 + 6,5mg / 00 ml
Medidas de Mediana (Med) Valores em distribuição de freqüência pontual Colesterol (X) f i f acumulada 8 97 0 3 8 5 6 33 7 3 8 39 0 6 8 50 5 5 68 76 9 3 Mediana 39 + 6,5mg / 00ml 35 Total 0 3
Medidas de Mediana (Med) Valores em intervalos de classe Nível de Colesterol (mg/00ml) (x i ) fi f acumulada 80 --00 00 --50 0 50 --300 6 300 --350 Total 0 Como são 0 observações, a mediana estará na posição 0 (0/), a mediana está na classe de 00 -- 50 mg/00ml Descobrindo o valor da variável que está na posição 0: 0 observações -------50 mg/00ml 8 observações ------- x 8 50 x x 0 0 Mediana valor inicial do intervalo + 0 0 mg/00ml
Medidas de Mediana (Med) Valores em intervalos de classe Med L i + a n f f acumanterior classemediana Li é o limite inferior da classe que contém a mediana a é a amplitude da classe que contém a mediana f acumanterior f classemediana é a freqüência acumulada até a classe anterior à classe que contém a mediana é a freqüência da classe que contém a mediana 0 Med 00 + 50 00 + 0 0mg / 00ml 0 5
Medidas de Mediana (Med) OBS: existe para variável quantitativa e qualitativa ordinal; é da mesma natureza da variável considerada; torna-se inadequada quando há muitos valores repetidos; não sofre influência de valores aberrantes; EX:,3,6 5, 5, 6,6 7, 8, 9,0 0,,0 7,8 Média aritmética: 8,3 pmol/l; Mediana: 7, pmol/l,6 5, 5, 6,6 7, 8, 9,0 0,,0 37,8 Média aritmética: 0,5 pmol/l; Mediana: 7, pmol/l pode ser calculada mesmo quando os dados estão agrupados em intervalos de classe e os extremos de algum intervalo não esteja definido (a não ser que a mediana caia neste intervalo). 6
Medidas de Medidas de dispersão Valores mínimo e máximo: valores extremos da distribuição Amplitude de variação: é a diferença entre os valores extremos da distribuição Idade (grupo ):,, 3, 5, 6,, 7 amplitude de variação 7-5 Idade (grupo ):,,,,,, 7 amplitude de variação 5 7
Medidas de Variância e desvio padrão Supor a idade (anos) de 5 pessoas: 3, 5, 8,, Média 3 + 5 + 8 + 5 8 anos Desvios em torno da média: 3 8-5 anos 5 8-3 anos 8 8 0 anos 8 anos 8 anos soma 0 anos Desvios quadráticos em torno da média: (3 8) (-5 anos) 5 anos (5 8) (-3 anos) 9 anos (8 8) (0 anos) 0 anos ( 8) ( anos) 6 anos ( 8) ( anos) 6anos soma dos desvios quadráticos em torno da média 66 anos 8
Medidas de Variância e desvio padrão Variância soma dos desvios quadráticos em torno da média/número de observações 66 5 Variância 3, anos σ σ Desvio padrão: é a raiz quadrada da variância, ou seja S S Desvio padrão 3,anos 3, 63 anos 9
Medidas de Valores individuais: Variância populacional: Variância amostral: S σ n N i ( X ( xi x) i n i N X ) 0
Medidas de Exemplo: Tipo A: nível de colesterol 33 9 3 50 6 97 68 39 5 76 3 8 8 5 0 8 3 Variância: (33 5,05) +... + (35 5,05) 9 s 3,37( mg /00ml) Desvio padrão s 3,37 36,6mg / 00ml Tipo B: nível de colesterol 3 85 63 6 88 50 8 6 75 5 53 83 37 0 9 (3 0,3) +... + (3 0,3) Variância: s 336,77( mg /00ml) 9 Desvio padrão s 336,77 8,3mg / 00ml
Medidas de Valores em distribuição de freqüências Variância amostral: Tipo A: Nível de Colesterol (mg/00ml) S n i ( x i x) n f i f i x i f i ( x i x) ( xi x) f i (x i ) 8 8 0,0 0,0 97 97 308,80 308,80 0 0 853,30 853,30 09,30 09,30 8 8 73,70 73,70 3,0 3,0 33 33 5,0 5,0 3 3,0,0 39 78 36,60 73, 6 6 0,90 0,90 8 8 8,70 8,70 50 50,50,50 5 5 8,30 8,30 5 5 80,0 80,0 68 68 56,70 56,70 76 76 957,90 957,90 9 9,0,0 3 3 8,30 8,30 35 35 639,00 639,00 Total 0 90 550,95 550,95 s A 9 3,37( mg /00ml) ; s A 3,37 36,6mg / 00ml
Medidas de Tipo B: Nível de Colesterol (mg/00ml) (x i ) f i x i f i 398, 9 ( x i x) ( xi x) xf i 37 37 537,89 537,89 8 8 388,9 388,9 53 53 383,9 383,9 69 69 705,69 705,69 75 75 6,09 6,09 83 83 75,9 75,9 85 85 60,09 60,09 88 88 97,9 97,9 9 9 65,69 65,69 0 0 68,89 68,89,89,89 3 3 7,9 7,9 87,69 87,69 6 6 6,9 6,9 00,89 00,89 6 6 7,9 7,9 50 50 576,09 576,09 5 5 738,89 738,89 63 63 777,9 777,9 3 3 7875,69 7875,69 Total 0 06 398, s B 336,77( mg /00ml) ; s B 336,77 8,3mg / 00ml 3
Medidas de Valores em intervalos de classe Variância amostral: S n i ( x ipm n x) f i Nível de Colesterol fi x i ponto x ipm f i ( x ipm x) ( xipm x) fi (mg/00ml) (x i ) médio (x ipm ) 80 --00 90 380 39,5 638,5 00 --50 0 5 50 6,5 6,5 50 --300 6 75 650 8,5 873,5 300 --350 35 650 66,5 3,5 Total 0 930 805,0 55x0 +... + 35x 930 x A 6,5mg / 00ml 0 0 805,0 s A 8,7( mg /00ml) ; s A 8,7 38,53mg / 00ml 9
Medidas de Tipo B Nível de Colesterol (mg/00ml) (x i ) fi x i ponto médio (x ipm ) x ipm f i ( x ipm x) ( xipm x) fi 30 --80 5 55 775 336 680 80 --00 90 760 59 6 00 --50 7 5 575 008 50 --300 3 75 85 38 53 300 --350 35 35 5 5 Total 0 60 00 55x5 +... + 35x 60 x B 3,0mg / 00ml 0 0 00 9 s A 36,8( mg /00ml) ; s A 36,8 8,3mg / 00ml 5
Medidas de Coeficiente de Variação de Pearson (CV): S é o quociente entre o desvio padrão e a média, ou seja CV x 00 x 36,6 8,3 CV tipo A : x 00 5,0% ; CV tipob : x 00 3,0% ; 5,05 0,3 Questão 3 São fornecidos valores de nível de triglicérides (mg/dl) de 9 pessoas 66 58 0 66 35 86 50 86 Calcule, apresentando o desenvolvimento da fórmula: a) o nível médio de triglicérides; b) o nível mediano de triglicérides; c) o desvio padrão do nível de triglicérides e d) o coeficiente de variação do nível de triglicérides. 6
Medidas de Questão A tabela abaixo foi extraída do artigo: Diagnóstico de sobrepeso em adolescentes: estudo do desempenho de diferentes critérios para o Índice de Massa Corporal de MONTEIRO POA et al. (Rev. Saúde Pública, 000;.3(5):506-3). Discuta os resultados obtidos ignorando a coluna do valor de p (este tópico será abordado na disciplina Bioestatística II). 7
Medidas de A tabela abaixo foi extraída do artigo: Avaliação da capacidade preditiva da circunferência da cintura para obesidade global e hipertensão arterial em mulheres residentes na Região Metropolitana de Belo Horizonte, Brasil de VELASQUEZ-MELENDEZ G et al. (Cad. Saúde Pública, 00; 8(3): 765-77). Calcule e interprete os coeficientes de variação de Pearson para cada uma das variáveis apresentadas. 8
Medidas de Quartil Valores da variável que dividem a distribuição em quatro partes iguais. ¼ ½ ¾ 5% 5% 5% 5% Q: deixa abaixo 5% das observações 5% 75% observações Primeiro quartil: Q: deixa abaixo 50% das observações 50% 50% 75% 5% Q x ; Terceiro quartil: ( ( n+ )) Q3: deixa abaixo 75% das Q 3 x 3 ( ( n+ )) 3 onde x é o valor da variável e ( ( n + )) e ( ( n + )) são índices que representam as posições ocupadas por x. 9
Medidas de.030*.30*.00*.680.550.050*.500*.70*.75.570.00*.550*.75*.70.600.75*.600*.0*.760.700.85*.70*.500*.930.830.5*.750*.560*.05.950.30*.770*.730*.00 3.005.6*.80*.30.090 3.60.95*.890*.0.00 3.00.300*.90*.575.00 3.60 Entre os recém-nascidos que sobreviveram: Q x x 70g 6 ( (3+ )) 3 x 3 x 8 g ( (3+ )) x x ( (3+ )) Q 830 Observe que Q 00g Entre os recém-nascidos que foram a óbito Q x x 30g 7 ( (7+ )) 3 x 3 x ( (7+ )) Q 00g e Q x x 600g ( (7+ )) 30
Medidas de Supor o exemplo com observações: n Q x x x ( (+ )) 3 ( ) 3 (5 ) que é ¾ do caminho entre x 5 75 e x 6 70 3 Q 75 + (70 75) 78, 8g Q 3 x x 3 ( (+ )) (7 ) que é ¼ do caminho entre x 7 700 e x 8 830 Q3 700 + (830 700) 73, 5g 3
Medidas de Percentil Valores da variável que dividem a distribuição em cem partes iguais. Entre os recém-nascidos que sobreviveram Percentil 5: P 5 x x x 5 ( (3+ )) 00 0 ( ) 00 ( ) 5 P5 30 + (0 30) 86g 5 que é /5 do caminho entre x 30 e x 0 Percentil 0: P 0 x x x 0 ( (3+ )) 00 0 ( ) 00 ( ) 5 ; P0 0 + (575 0) 76g 5 Percentil 50: P 50 x x x 50 ( (3+ )) 00 Percentil 75: 75 ( (3+ )) 00 Percentil 90: 00 ( ) 00 P 75 x x x 90 ( (3+ )) 00 800 ( ) 00 P 90 x x x 60 ( ) 00 () (8) 3 ( ) 5 ; P50 00g ; P75 830g 3 ; P90 360 + (300 360) 330g 5 3
Medidas de Box plot e identificação de valores aberrantes (outliers) O Box plot representa graficamente dados de forma resumida em um retângulo onde as linhas da base e do topo são o primeiro e o terceiro quartis, respectivamente. A linha entre estas é a mediana. Linhas verticais que iniciam no meio da base e do topo do retângulo, terminam em valores denominados adjacentes inferior e superior (Chambers et al., 983, pag 60). O valor adjacente superior é o maior valor das observações que é menor ou igual a Q3+,5(Q3- Q) e o valor adjacente inferior é definido como o menor valor que é maior ou igual a Q-,5(Q3-Q), sendo a diferença Q3-Q denominada intervalo inter-quartil (IIQ). Valores outliers (discrepantes ou aberrantes) são valores que fogem da distribuição dos dados. O box plot além de apresentar a dispersão dos dados torna-se útil também para identificar a ocorrência destes valores como sendo os que caem fora dos limites estabelecidos pelos valores adjacentes superior e inferior. 380 360 30 30 300 80 60 0 0 00 80 60 0 0 colesterol A B 33
Box plot Tipo A: nível de colesterol 8 0 8 33 39 6 50 5 76 3 97 3 39 8 5 68 9 35 Tipo A: n0; Q x x x 8 + ( 8) 8 +,5 ) 5 n+ ( 9,5 3 Q3 x x 3 x 3 5 + (68 5) 5 + 0,5 6,5 3 ) 5 n+ ( () Intervalo Inter-Quartil (IIQ): Q3-Q 5 35 é o valor adjacente superior. Este é o maior valor da distribuição, igual ou abaixo de 33, onde 33 é dado por: 6,5 +,5 x 5 33. 8 é o valor adjacente inferior. É o menor valor da distribuição, igual ou acima de 5, onde 5 é dado por: 9,5,5 x 5 5. 3
Box plot Tipo B n0 Q Q3 x x x 75 + (83 75) 75 + 77 ) 5 n+ ( 3 x x 3 x 3 + (6 ) + 3 5 3 ) 5 n+ ( () Intervalo Inter-Quartil (IIQ): Q3-Q 68 3 é o valor adjacente superior. Este é o maior valor da distribuição, igual ou abaixo de 37, onde 37 é dado por: 5 +,5 x 68 37. 37 é o valor adjacente inferior. É o menor valor da distribuição, igual ou acima de 75, onde 75 é dado por: 77,5 x 68 75. 35
Box plot Tipo A: n0; Q x x x 8+ ( 8) 8+,5 9,5 ( ) 5 n+ 3 Q3 x x3 x 3 5+ (68 5) 5+ 0,5 6,5 3 ( ) 5 n+ () Intervalo Inter-Quartil (IIQ): Q3-Q 5 35 é o valor adjacente superior. Este é o maior valor da distribuição, igual ou abaixo de 33, onde 33 é dado por: 6,5 +,5 x 5 33. 8 é o valor adjacente inferior. É o menor valor da distribuição, igual ou acima de 5, onde 5 é dado por: 9,5,5 x 5 5. Tipo B n0 Q x x x 75+ (83 75) 75+ 77 ( ) 5 n+ 3 Q3 x x3 x 3 + (6 ) + 3 5 3 ( ) 5 n+ () Intervalo Inter-Quartil (IIQ): Q3-Q 68 3 é o valor adjacente superior. Este é o maior valor da distribuição, igual ou abaixo de 37, onde 37 é dado por: 5 +,5 x 68 37. 37 é o valor adjacente inferior. É o menor valor da distribuição, igual ou acima de 75, onde 75 é dado por: 77,5 x 68 75. 36
Validade de Curso de capacitação em medida da Altura uterina para enfermeiros e graduandos de Enfermagem. Camila C A Paiva; Djacyr MC Freire. Ver Bras Enferm, Brasilia 0, set-out;65(5):775-9 37
Box plot Questão 6 Os dados a seguir são de uma pesquisa que investigou as concentrações de minerais no leite materno, no período de 98 a 985. Foram coletadas amostras de leite materno de 55 mulheres que tiveram seus filhos no Hospital Maternidade Odete Valadares, em Belo Horizonte. As mães foram divididas em período de lactação: colostro e leite maduro. cálcio (µg/ml de leite) grupo colostro 3 8 5 3 33 5 56 3 3 63 5 75 33 37 63 3 96 33 375 67 303 35 375 37 cálcio (µg/ml de leite) grupo maduro 59 75 8 88 00 06 3 7 3 38 38 56 59 60 63 6 75 77 79 8 93 30 303 3 3 39 a) Calcule a quantidade média de cálcio (µg/ml de leite) em cada grupo. b) Calcule a quantidade mediana de cálcio (µg/ml de leite) em cada grupo. c) Desenhe o box plot da concentração de cálcio (µg/ml de leite) representando os dois grupos em um só gráfico. d) Comente o gráfico box plot quanto a dispersão dos dados, existência de valores aberrantes e igualdade de medianas. 38
Questão 6 Grupo colostro: x 6 i n x i 7055 6 7,35µ g / ml Grupo maduro: x 6 i n x i 730 9 5,07µ g / ml Grupo colostro: n6 (par) Mediana é a media dos valores que ocupam os postos 3 e 75 + 96. Med 85,5 g / ml µ Grupo maduro: n9 (ímpar); a mediana é o valor da variável que ocupa o posto 5. Med 56 µg/ml 39
Questão 6 Medida Grupo colostro Grupo maduro Q 3,5 Q 85,5 56 Q3 37,5 80 Valor adjacente inferior 3 59 Valor adjacente superior 37 3 valor adjacente superior: maior valor abaixo de Q3+,5x(IIQ) Valor adjacente inferior: Menor valor acima de Q-,5x(IIQ) 500 var 50 00 350 300 50 00 50 00 grupo colostro grupo maduro Box plot da variável concentração de cálcio (µg/ml) segundo grupo de leite (colostro e maduro) 0