Medidas de Dispersão ou variabilidade

Medidas de Dispersão ou variabilidade A média - ainda que considerada como um número que tem a faculdade de representar uma série de valores - não pode, por si mesma, destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem o conjunto.

Dispersão ou Variabilidade: É a maior ou menor diversificação dos valores de uma variável em torno de um valor de tendência central ( média ou mediana ) tomado como ponto de comparação.

Consideremos os seguintes conjuntos de valores das variáveis: X = { 170, 170, 170, 170, 170 } Y = { 168, 169, 170,171,172 } Z = { 105, 115, 150, 220, 260 } Observamos então que os três conjuntos apresentam a mesma média aritmética = 850/5 = 170. Entretanto, é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z, já que todos os valores são iguais à média. O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z, pois há menor diversificação entre cada um de seus valores e a média representativa.

Concluímos então que o conjunto X apresenta dispersão nula e que o conjunto Y apresenta uma dispersão menor que o conjunto Z.

MEDIDAS DE DISPERSÃO ABSOLUTA Amplitude total (At) : É a única medida de dispersão que não tem na média o ponto de referência. Quando os dados não estão agrupados a amplitude total é a diferença entre o maior e o menor valor observado: At = x máximo - x mínimo.

Exemplo: Para os valores 80, 85, 88, 102 e 110 a amplitude total será: At = 110-80 = 30 Com intervalos de classe a amplitude total é a diferença entre o limite superior da última classe e o limite inferior da primeira classe. Então At = L máximo - L mínimo. Exemplo: Classes fi 4 --- 6 6 6 --- 8 2 8 --- 10 3 At = 10-4 = 6

Variância da população e variância da amostra: Em estatística, o conceito de variância também pode ser usado para descrever homogeneidade de um conjunto de observações. Quando o conjunto das observações é uma população, é chamada de variância populacional. Se o conjunto das observações é (apenas) uma amostra estatística, chamamos-lhe de variância amostral (variância da amostra).

Variância populacional: n σ 2 1(x μ)2 = n Variância Amostral n s 2 1(x μ)2 = n 1 Método breve para Variância populacional: n σ 2 1 = (x2 ) μ 2 n Método breve para Variância Amostral s 2 = n x 2 n 1 n μ2 desvio padrão populacional: σ = σ 2 desvio padrão amostral: s = s 2

Propriedades da variância e do desvio padrão: 1- somando-se ou subtraindo-se um mesmo valor a todos os termos de uma sequência numérica o desvio padrão e a variância não se alteram. 2- multiplicando-se ou dividindo-se um mesmo valor a todos os termos da sequencia numérica o desvio padrão se altera da mesma forma. 3- multiplicando-se ou dividindo-se um mesmo valor a todos os termos da sequencia numérica a variância se altera do quadrado do valor da mesma forma.

Exemplo: O desvio padrão do seguinte conjunto de dados: 2 4 5 6 8 é superior a 5.

Solução: 2 4 5 6 8 Em primeiro lugar vamos calcular os quadrados de todos os valores da sequencia: X 2 : 4 16 25 36 64 -> média = 145/5 = 29 Depois calcular a media dos valores e elevar ao quadrado: μ 2 = ( 2+4+5+6+8 ) 2 = 5 2 =25 5 σ 2 = 29 25 = 4 σ = 4 =2

Logo o item esta ERRADO

Exemplo: Um grupo e formado por 10 pessoas, cujas idades são: 18 19 19 20 20 20 21 22 23 24 A variância populacional é 3,24.

Solução: Quando os valores das variáveis são altos usamos a propriedade da subtração: Ache a mediana( 18 19 19 20 20 20 21 22 23 24 ) = 20, assim subtraímos esse valor de todos os termos gerando uma nova sequencia: NOVA SEQUENCIA = -2,-1,-1,0,0,0,1,2,3,4 MEDIA X 2 = ( 4+1+1+0+0+0+1+4+9+16) / 10 = 3,6 μ 2 = [(-2-1-1+0+0+0+1+2+3+4 ) / 10] 2 = 0,36 VAR = 3,6 0,36 = 3,24

logo o item está correto

Exemplo: Em uma pesquisa de preços de determinado produto, foram obtidos os valores, em reais, de uma amostra aleatória colhida em 6 estabelecimentos que o comercializam. A variância dessa amostra e (A) 1,50 (B) 1,75 (C) 2,00 (D) 2,25 (E) 2,50

Solução: ROL DA SEQUENCIA : 4, 5, 6, 6, 7, 8 MEDIANA DA SEQUENCIA = 6 NOVA SEQUENCIA = -2,-1,0,0,1,2 MEDIA QUADRATICA = ( 4+1+0+0+1+4) / 6 = 10/6 MEDIA2 = [(-2-1+0+0+1+2 ) / 6]2 = 0 VAR = 10/6 0 = 10/6 VARIANCIA AMOSTRAL = (6 / 6 1) X10/6 = 10/5 = 2

Amplitude Interquartil A mediana e a amplitude inter-quartis Uma outra forma de sumarizar dados é em termos dos quartis. Essas medidas são particularmente úteis para dados não simétricos. A mediana (ou quartil 2) é definida como o valor que divide os dados ordenados ao meio, i.e. metade dos dados têm valores maiores do que a mediana, a outra metade tem valores menores do que a mediana.

Adicionalmente, os quartis inferior e superior, Q1 e Q3, são definidos como os valores abaixo dos quais estão um quarto e três quartos, respectivamente, dos dados. Estes três valores são frequentemente usados para resumir os dados juntamente com o mínimo e o máximo.

A medidade de dispersão é a amplitude interquartis: D j = Q3 - Q1, i.e. é a diferença entre o quartil superior e o inferior.

Exemplo: Os quartis de uma distribuição são Q 1 = 4, Q 2 = 6 e Q 3 = 10. Essa distribuição: (A) é simétrica. (B) é assimétrica à direita. (C) é assimétrica à esquerda. (D) tem moda maior que a média (E) tem moda igual á média

Solução: Se observarmos a distancia Q2 Q1 = 6 4 = 2, Já se compararmos a Q3 Q2 = 10 6 = 4 Podemos perceber que a segunda é maior que a primeira. Sendo assim os 25% dos termos que ficam no fim estao mais dispersos do que os 25% do inicio. Entao podemos concluir :

Gabarito letra B

MEDIDA DE DISPERSÃO RELATIVA Notação: CV = coeficiente de variação de Pearson ou apenas coeficiente de variação. O fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua dispersão ou variabilidade, quando expressas em unidades diferentes.

Assim, um desvio padrão de 2 unidades pode ser considerado pequeno para uma série de valores cujo valor médio é 200; no entanto, se a média for igual a 20, o mesmo não pode ser dito.

Para contornar essas dificuldades e limitações, podemos caracterizar a dispersão ou variabilidade dos dados em termos relativos a seu valor médio, medida essa denominada de CV: Coeficiente de Variação de Pearson (é a razão entre o desvio padrão e a média referentes a dados de uma mesma série). CV = S X

Exemplo: Tomemos os resultados das estaturas e dos pesos de um mesmo grupo de indivíduos: Discriminação M É D I A DESVIO PADRÃO ESTATURAS 175 cm 5,0 cm PESOS 68 kg 2,0 kg Das medidas (Estatura ou Peso) a que possui maior homogeneidade é o peso.

Solução: Teremos que calcular o CV da Estatura e o CV do Peso. O resultado menor será o de maior homogeneidade (menor dispersão ou variabilidade). CVestatura = ( 5 / 175 ) x 100 = 2,85 % CVpeso = ( 2 / 68 ) x 100 = 2,94 %. Logo, nesse grupo de indivíduos, as estaturas apresentam menor grau de dispersão que os pesos.

Logo podemos concluir que o item esta ERRADO.

Distribuição Normal Em forma de Sino Unimodal Simétrica Média, mediana e moda são iguais Assintótica em relação ao Eixo X f(x) Q1 50% Média, Q3 X Amplitude Interquartil é 1,33 s ou [Q3-Q1] = 4/3 s Mediana Moda

Modelo Matemático f X 1 1 - e 2 2s 2 2 s X 2 X: valores da variável aleatória F(X):função densidade probabilidade da variável aleatória X : média da população s: desvio padrão da população

Distribuição Normal Padronizada Tabela (Parte) Z.00.01.02 0.0.5000.5040.5080 0.1.5398.5438.5478 Z 0 s 1 Z 0,5478 0.2.5793.5832.5871 0.3.6179.6217.6255 Probabilidades 0 Z = 0,12 Uma única Tabela basta! É essa a solução

Valor da V. A. Normal Z Padronizada: z x s x = valor da V. A. Normal X s = desvio padrão da V. A. Normal X = média da V. A. Normal X z = valor padronizado de x (número de desvios padrão com relação à média)

Para os exemplos a seguir usaremos: + < X < X é uma variável aleatória μ Média = 5 σ desvio padrao = 10

Exemplo: padronizar 6.2 Z X 6.2 5 s 10 0.12 X: Distribuição Normal Z: Distribuição Normal Padronizada s 10 s Z 1 5 6.2 X Z 0 0.12 Z

Z cálculo da área entre dois números P 2.9 X 7.1.1664 X 2.9 5 X 7.1 5.21 Z.21 s 10 s 10 X: Distribuição Normal s 10 Z: Distribuição Normal Padronizada.0832 s Z 1.0832 2.9 0.21 0 0.21 7.1 X Z Z

Inverso: obter z, conhecido p = 0,5832 Z.00.01.02 0.0.5000.5040.5080 0,5832 0.1.5398.5438.5478 0.2.5793.5832.5871 0.3.6179.6217.6255 0 Z = 0,21

Recuperando X para Probabilidades Distribuição Normal s 10 Conhecidas Distribuição Normal Padronizada.1179 s Z 1.3821? X Z 5 Z 0 0.30 X Zs 5.30 10 8

RESUMO FINAL Padronização z x s Área Total = 1 probabilidade = Área sob a curva Normal média = mediana

TESTE DE HIPÓTESES É uma regra de decisão utilizada para aceitar ou rejeitar uma hipótese estatística com base em elementos amostrais. Hipóteses: Teremos sempre duas hipóteses, H 0 (Agá-zero), que é a hipótese nula ou hipótese probanda e H 1 ou H A (hipótese alternativa).

A hipótese nula é sempre a hipótese a ser examinada. Se a aceitarmos, implicitamente estaremos rejeitando H 1 e se rejeitarmos H 0, então não podemos rejeitar H 1, devendo esta ser aceita.

Tipos de erro: Dois tipos de erro podem ser cometidos num Teste de Hipóteses: Erro Tipo I (α) -> A hipótese nula é verdadeira e o pesquisador a rejeita. Erro Tipo II (β)-> A hipótese nula é falsa e o pesquisador a aceita.

TIPOS DE TESTE DE HIPÓTESES PARA A MÉDIA: 1) Bicaudal ou Bilateral H 0 : μ = μ 0 H 1 : μ μ 0 ;Onde: μ é a média populacional e μ 0 é o valor suposto para a média populacional.

2) Teste Unicaudal ou Unilateral à direita H 0 : μ μ 0 H 1 : μ > μ 0

3) Teste Unicaudal ou Unilateral à esquerda H 0 : μ μ 0 H 1 : μ < μ 0

Repare que na hipótese nula sempre temos uma igualdade (=, ou ) e na hipótese alternativa uma desigualdade (, > ou <). Se n > 30 ou σ for conhecido, usamos distribuição Normal; Se n 30 e σ for desconhecido, usamos distribuição t- Student; Outro detalhe importante é que a tabela da distribuição t-student é bi-paramétrica.

TABELA T STUDENT Onde : φ = n 1 α = significancia

Para procedermos ao teste, além de conhecer o valor tabelado (Z TAB se usarmos Distribuição Normal ou t TAB se usarmos Distribuição t-student), temos que encontrar o valor calculado (Z CALC ou t CALC ), dado por:

Exemplo 1 : Uma amostra de 36 elementos de uma variável X normalmente distribuída forneceu: X = 42,3 e S = 5,2. Testar, no nível de significância 0,05, a hipótese de que μ > 40.

Resolução: Seguindo o roteiro, temos: 1º passo: H 0 : μ = 40; H 1 : μ > 40 (teste unilateral à direita); 2º passo: a amostra é grande (n > 30). Logo, usaremos a Tabela Normal; 3º passo: o teste é unilateral, com α = 0,05. Logo, para uma área de 0,45, teremos ZTAB=1,64; 4º passo: desenhar a curva, plotando Z TAB ;

5º passo: calcular a estatística teste. Zcalc = X μ S n = 42,3 40 5,2 36 = 2,65. 6º passo: Z CALC > Z TAB. Conclusão: ao nível de significância de 5%, REJEITO H 0 : μ = 40. Logo, μ > 40.

EXEMPLO 2: Uma amostra de 20 elementos de uma variável X normalmente distribuída forneceu: X = 53,4 e S = 7,5. Testar, no nível de significância 0,05, a hipótese de que μ = 50.

solução: Hipóteses: H 0 : μ = 50; H 1 : μ 50 (teste bilateral); A amostra é pequena (n 30) e σ (desvio padrão populacional) é desconhecido. Logo, a distribuição a ser utilizada é a t-student, com n = 20 ϕ = 19 e α = 0,05. Consultando a tabela, encontraremos ttab= 0930,2.

Como: t TAB < t CALC < t TAB, ao nível de significância de 5% ACEITO H 0 : μ = 50.