MEDIDAS DE TENDÊNCIA CENTRAL II 8. MÉDIA, MEDIANA E MODA 8. Mediana 8 7 A mediana divide um conjunto de dados pré-ordenados em duas porções iguais, ou seja, duas partes de 50% cada. Nesta divisão, 50% dos dados pertencem a uma ração superior ao valor mediano e 50% pertence à ração inerior ao valor da mediana. Para determinar a mediana, se esta divide o conjunto de dados em duas porções, surgem duas situações distintas. Neste caso, a paridade do conjunto de dados é considerada na divisão. O número de dados na distribuição pode ser par ou ímpar. Em um caso o número de dados é impar, dado um valor n impar de dados, como por exemplo: X ; X ; X ; X ; X ; X ;;;5;6;6;9 X onde n=7 ; 5 6 7 que: dados. Para determinar qual o dado relacionado à posição central dos dados temos 7 Logo, p= p n impar isso implica em dizer que a mediana, M X X 5 d p. O valor da média será 5, pois este ocupa a posição p= do conjunto de Pro. M. Sc Aquino 7
Supondo agora um que o conjunto de dados é par, dado um valor dados, como por exemplo: X ; X ; X ; X ; X ;;;5;6;6 X onde n=6 ; 5 6 n par de Neste caso existem duas posições centrais para o conjunto de dados denominados p, p. Tentar determinar o valor para este caso usando a expressão 6 anterior leva a um valor não inteiro. No exemplo p=, 5. Podem ser assumidos então p = e p = O valor para a mediana, neste caso será determinado pela expressão: X p X p M d No exemplo, calculando então a mediana, tem-se que: M d X X 5 5 8 8. Moda A moda representa um valor de maior ocorrência dentre de um determinado conjunto de dados. A moda é uma medida que pode não existir, neste caso dizemos que os dados são amodais, mas se a moda existe, pode não ser um valo único. Uma orma ácil de encontrar a moda é a partir da requência simples que indica o número de repetições de um determinado dado em um conjunto amostral. Exemplo : Determine a moda para as distribuições nos casos abaixo: Caso, no conjunto de dados { 5 8 9} A moda é M o = por ser a maior ocorrência e existe apenas uma única moda. Caso, no conjunto de dados { 5 6 7 } Existem duas modas ou bimodal, onde M o = e M o = possuem igual número de repetições. Caso, no conjunto de dados { 5 6 7 8 9 } não há uma repetição sequer e é dito então amodal. Pro. M. Sc Aquino 7
Um problema é determinar agora dentro de um conjunto de dados agrupados por classe, qual a valor representa a moda. Apesar de a requência nos revelar qual a classe que Leva a moda pelo maior número de ocorrência, não sabemos qual o valor dentro da classe representa a moda. Neste caso podemos determinar este valor segundo a expressão conhecida como ormula de Czuber: X Mo X Mo _ min. h X X Xmo é o limite inerior da classe modal h é a amplitude da classe modal X é a variação entre a requência modal e a requência anterior X é a variação entre a requência modal e a requência posterior Exemplo : Determine na tabela abaixo, qual valor representa a moda: IDADE Frequência i 8 0 0 5 7 5 Solução: A classe cuja requência igual a 7 é a classe modal, pois contém o maior número de ocorrências. O limite inerior desta classe é dado por 0 e a amplitude de classe h é corresponde a (5-0)=5, aplicando na expressão anterior temos que: 7 5 5 Mo 0.5 0 5 0 0,7,7 anos (7 ) (7 ) 5 6 Um terceiro método para a determinação da moda é o método gráico eito a partir do histograma da distribuição de requências. Para exempliicar, utilizando os dados acima, e traçando o histograma, tem-se que: Pro. M. Sc Aquino 7
0 9 8 7 6 5 0 Mo 8 0 0 5 5 Traçando as retas ligando os pontos superiores com os pontos ineriores conorme a igura, o encontra das retas é a moda que é indicada pela seta. Para determinar o valor da moda é necessário estabelecer uma relação entre os valores limites inerior e superior do histograma. Para isso, será utilizada uma régua para azer as medidas do gráico que sejam conhecidas com a moda que é desconhecida. Entendo que se temos uma escala conhecida e uma onde um valor é desconhecido, então com a ajuda de uma régua (escala totalmente conhecida) comum sobre o gráico é possível estabelecer à proporção entre os valores da régua com os valores do gráico cuja moda é desconhecida. Fazendo isso como na igura acima, a proporção abaixo é obtida: ( Mo 0)[ anos] (,8,0)[ cm] (5 0)[ anos] (5,0,0)[ cm],8[ cm] 5[ anos] Mo[ anos] 0,0[ cm] 0,5,5anos Observe que comparado com o método anterior, este método gráico conduz a valores muito bons se considerada as possibilidades de erros sistemáticos. Pro. M. Sc Aquino 7
8. Características da distribuição de dados 8.. Simetria e assimetria A média, mediana e a moda representam valores de tendência central. Existe uma relação intrínseca entre estas dierentes ormulações apesar de todas tratarem do mesmo tópico. A distinção da distribuição pode ser visualizada com a elaboração do histograma que revelará o ormato da distribuição dos dados que é a dierença entre as dierentes modalidades de tendência central. Conorme a distribuição dos dados, esta pode ser classiicada sobre os seguintes aspectos de distribuição numérica: Distribuição simétrica normal. Neste caso os três valores, média, mediana e moda são respectivamente os mesmos. A característica principal desta distribuição é ter o valor central exatamente no meio da distribuição numérica dos dados. M M o M d Distribuição assimétrica positiva. Neste caso, a média possui valor maior que a mediana que possui valor maior que a moda. O centro dos dados então se encontra na média aritmética. M o M d M MM d M o Pro. M. Sc Aquino 75
Distribuição assimétrica negativa. Neste caso a média possuirá valor menor que a mediana que possuirá valor menor que a moda. O centro dos dados então se encontra na moda. M M d M o MM d M o 8.. Relação empírica entre moda, média e mediana. Com base na construção de simetria e assimetria discutidas no item anterior, é possível propor uma relação empírica que aproxima os valores entendendo que a mediana é sempre um valor entre a média e a moda, observando-se geometricamente que a distância entre a moda e a mediana é o dobro entre a distância da mesma com a média. Com isso pode-se estabelecer a relação empírica: M M o ( M M d ) Esta relação é útil para casos em que o número de dados é relativamente grande. Exemplo : Se a moda de uma distribuição é 0 e a média é 7 estime qual deverá será o valor da mediana: Solução: Aplicando para este caso a relação empírica, tem-se que: 7 0 (7 M ) 8 d M d M d 8 8 8 Logo, a mediana da distribuição para o problema deverá ser igual a 8. Pro. M. Sc Aquino 76
8.. Medida de assimetria Núcleo das Ciências Biológicas e da Saúde O método simples, porém eiciente de medida de assimetria de uma distribuição de dados é obtido a partir da relação da média e a moda. 8.. Curtose M M o > 0 Assimetria positiva < 0 Assimetria negativa = 0 Simétrico Curtose é o grau de deormação de uma distribuição de dados que indica até que ponto uma curva de requências se encontra mais achatada ou mais ailada em comparação com a curva padrão denominada curva normal. A medida da deormação de uma distribuição de dados permite avaliar como os dados se concentram em torno da média. A curtose de uma distribuição de requências pode ser classiicada conorme os seguintes aspectos: Mesocúrtica: Ocorre quando a curva de requência possui um ormato mais próximo da curva normal, não achatada não alongada. Platicúrtica: Neste caso a curva de requência apresenta um orte achatamento em relação a curva normal. A distribuição de requência neste caso apresenta valores racamente concentrados em torno da média. Pro. M. Sc Aquino 77
Leptocurtica: Neste caso a curva de requência apresenta um alto grau de ailamento em relação a curva normal. A distribuição de requência apresenta valores ortemente concentrados em torno da média. 8..5 Coeiciente de curtose curtose: A curtose pode ser determinada pela expressão gama ou coeiciente de n ( xi M ) i ( n ) s > 0 Leptocúrtica < 0 Platicúrtica = 0 Mesocúrtica 8. Separatrizes (Opcional) Delimitam porções de observação de uma variação estabelecendo limites para uma determinada proporção de observações. Em geral são intuitivas, de ácil observação e reqüentemente resistentes. 8.. Quartis Q i O quartis divide um conjunto de dados agrupados em classes em quatro partes iguais sendo a cada parte corresponde a ração de 5%. 5% 5% Q Q Q 5% 50% 5% 75% 5% 00% Pro. M. Sc Aquino 78
A divisão ica deinida de orma que Q, primeiro quartis, deixa 5% dos elementos abaixo da divisão. Q que é segundo quartis corresponde à mediana deixando abaixo dele a ração de 50% dos elementos e Q deixa abaixo dele 75% dos elementos. A posição ao qual na distribuição de requências ao qual cada quartis pertence é determinada por: ( ) P i n i logo, n P, n n P e P Conhecendo a posição P para cada quartis, os valores correspondentes podem ser determinados para a amostra a partir das expressões: Q X P n j i ip Fi h Onde, Xp é Limite inerior do quartil da classe mediana n é o tamanho da amostra h amplitude de classe ip requência da classe do quartis e Fi corresponde a soma das classes dos quartis anteriores(j-ésimo - ). De orma análoga determinamos o º quartis pela expressão: equação E o segundo quartis é determinado pela mediana determinada conorme a Q Q X P Md X n P n Fi h j i ip Fi h Exemplo : Seja a distribuição de requência onde é pretende entender qual dos valores corresponde aos quatis. Qual ração dos valores corresponde a 5%, 50% e 75%para as idades? Solução, A tabela é dividida em 5 classes, onde a amplitude de classe h= e n=6. Inicialmente determino as posições em que encontramos os quartis, 6 o 6 o 6 o P P 8 P j i ip Pro. M. Sc Aquino 79
Determinamos cada quartis, tem-se: Pos. IDADE Frequência i Frequência acumulada F i,, 8 0,5,6 0 5 7,8,9 7 0,, 7 5,,5 7 9 6 n= 6 Q n 6 Fi 6 h 0 0 j i X P ip j n 6 Fi 5 i 8 5 Q X P h 0,57,57 7 7 7 ip j n 6 Fi i Q X P h ip A resposta então e que abaixo de 0 anos existem 5% dos valores, 50% dos valores abaixo de e 50% abaixo dos 7 anos. Pro. M. Sc Aquino 80
Apêndice A Exercícios resolvidos ) Considere os dados obtidos sobra altura de uma população de 00 indivíduos: 8 8 8 8 85 86 87 88 90 90 6 6 6 6 6 6 65 65 65-66 7 7 7 7 7 75 75 75 75 76 69 69 69 69 69 70 70 70 70 70 66 66 66 67 67 67 67 67 68 68 70 70 7 7 7 7 7 7 7 7 76 76 76 77 77 77 77 78 78 78 68 68 68 68 68 68 68 68 69 69 5 5 5 55 58 59 59 60 6 6 79 79 80 80 80 80 8 8 8 8 Organize os dados acima em orma de ROL, com classes que considerem uma amplitude de classe de 0cm, e determine a requência relativa para estas classes. Com os resultados responda se esta é uma distribuição simétrica ou assimétrica. Determine a moda da distribuição. Solução: A população, como dita no problema é de 00 indivíduos logo, n=00 Organizando em orma de ROL: 5,5,5,55,58,59,59,60,6,6, 6,6,6,6,6,6,65,65,65,66, 66,66,66,67,67,67,67,67,68,68, 68,68,68,68,68,68,68,68,69,69, 69,69,69,69,69,70,70,70,70,70, 70,70,7,7,7,7,7,7,7,7, 7,7,7,7,7,75,75,75,75,76, 76,76,76,77,77,77,77,78,78,78, 79,79,80,80,80,80,8,8,8,8, 8,8,8,8,85,86,87,88,90,90 Determinando o número de classes para a tabela, A amplitude amostral é: X 90 5 9 O número de classes é: K 00 0 9 A amplitude de classe é: h,9 0 Com isso é possível montar a tabela, Pro. M. Sc Aquino 8
i Classes Xi i ri Fi Fri Xii 5-55 5 % % 59 55-59 57 % 5 5% 59-6 6 7 7% % 7 6-67 65 % % 85 5 67-7 69 9 9% 5 5% 90 Classe modal 6 7-75 7 % 65 65% 9 7 75-79 77 5 5% 80 80% 655 8 79-8 8 % 9 9% 7 9 8-87 85 % 96 96% 70 0 87-9 89 % 00 00% 756 Lim. Iner. Lim. Sup N= 00 00% Mp= 7,88 A média ponderada pelas requências(calcule) é de 7,88cm A Moda calculada é: X Mo X Mo _ min X X A mediana Calculada é: 9. h 67 6,88 (9 ) (9 ) Como n=00 é um número par são tidas duas posições na distribuição. Logo, 00 p 50 X ( p) X ( p ) X (50) X (5) 69 69 p 50,5... Md 69 p 5 Com isso, temos que (Mo=65) < (Md=69) < (M=7) Fazendo a M Mo 7 65 7 maior que zero logo assimetria positiva semelhante à igura ao lado. M o M d M MM d M o Pro. M. Sc Aquino 8