UNIVERSIDADE FEDERAL DA PARAÍBA MEDIDAS DESCRITIVAS Departamento de Estatística Luiz Medeiros http://www.de.ufpb.br/~luiz/
Vimos que é possível sintetizar os dados sob a forma de distribuições de frequências e gráficos. Pode ser de interesse apresentar esses dados através de medidas descritivas que sintetizam as características da distribuição. Para representar um conjunto de dados de forma condensada utilizaremos algumas medidas de posição e de dispersão.
MEDIDAS DE POSIÇÃO - MÉDIA Média Aritmética Simples: É a soma das observações dividida pelo número de observações. Seus valores tendem a se localizar em um ponto central dentro de um conjunto de dados. Em geral é a medida de posição mais comum. A média aritmética de X é dada por: Para dados agrupados por valor:
Exemplo: Calcule a média da distribuição de frequência por valor
PROPRIEDADES DA MÉDIA ARITMÉTICA i) A soma algébrica dos desvios de um conjunto de números em relação a média aritmética é zero. ii) Quando somamos ou subtraímos uma constante aos valores de uma variável, a média fica aumentada ou diminuída dessa constante. iii) Quando multiplicamos ou dividimos todos os valores de uma variável por uma constante, a média fica multiplicada ou dividida por essa constante.
PROPRIEDADES DA MÉDIA ARITMÉTICA IMPORTANTE: Quando um conjunto de dados contém valores extremos não é aconselhável o uso da média para representação dos dados. EXEMPLO: A partir da distribuição de renda calcule a renda média dos Engenheiros em uma Empresa. 2500 3300 5500 2700 4200 6000 3000 4800 7000 3200 5000 80000
MÉDIA ARITMÉTICA PONDERADA Nos cálculos envolvendo média aritmética simples, todas as ocorrências têm exatamente a mesma importância ou o mesmo peso. No entanto, existem casos onde as ocorrências têm importância relativa diferente. Nestes casos, o cálculo da média deve levar em conta esta importância relativa ou peso relativo.
Exemplo: As aplicações mais comuns no mercado financeiro são: Poupança, Certificado de Depósito Bancário (CDB), Recibo de Depósito Bancário (RDB) e os Fundos de Investimento. Uma multinacional decide aplicar parte do seu lucro em três diferentes aplicações no período de um ano. Segue abaixo o montante aplicado em cada uma das aplicações no período. Tipos de Aplicações Valor das Aplicações Rentabilidade Poupança R$ 250.000,00 7% CDB R$ 100.000,00 11% RDB R$ 80.000,00 12% Qual foi a rentabilidade média (em percentual) da empresa com as aplicações no final do período? Justifique sua resposta.
MEDIDAS DE POSIÇÃO - MEDIANA Mediana: Ocupa a posição central de uma série de observações ordenadas, ou seja, é o valor que divide os dados em duas partes iguais (isto é, em duas partes de 50% cada). É denotada por Me. Caso 1 - n ímpar: Para a série de valores ordenados em ordem crescente de grandeza (isto é, um rol), a mediana é o valor central, isto é Me = elemento que está na posição (n+1)/2; Caso 2 - n par: Para a série de valores ordenados em ordem crescente de grandeza (isto é, um rol), a mediana é a média aritmética dos valores centrais, isto é Me = média aritmética entre os elementos das posições n/2 e (n/2)+1
MEDIDAS DE POSIÇÃO - MODA Moda: É o valor (valores) mais frequente na distribuição de valores, e será denotado por M O. a. Se todos os valores se repetem a mesma quantidade de vezes, dizemos que não há moda, ou seja, a distribuição é amodal; b. Se um valor ocorre com mais frequência, dizemos que a distribuição é unimodal; c. Se dois valores se repetem a mesma quantidade de vezes e com mais freqüência, dizemos que a distribuição é bimodal. d. Se mais de dois valores se repetem a mesma quantidade de vezes e com a mesma freqüência, dizemos que a distribuição é multimodal.
Exemplo: Uma multinacional estuda implementar uma nova política de incentivo financeiro a suas equipes de vendas. Com o objetivo de estabelecer uma meta mínima a empresa estudou o comportamento das vendas de três diferentes equipes durante seis meses. Os valores obtidos (em milhões de R$) foram: Equipes Vendas A 40 38 27 25 38 37 B 27 29 37 44 43 30 C 35 31 38 27 36 29 a) A equipe de qual região é a mais eficiente nas vendas? b) Foi estabelecida uma remuneração extra para a equipe em que o número de meses das vendas superiores a média geral seja, no mínimo, 60%. Verifique se alguma equipe ganhou essa remuneração. Por quê?
Exemplo: De acordo com informações obtidas de uma multinacional, o salário dos funcionários que possuem curso superior são: R$ 2500,00 3200,00 1800,00 1600,00 1900,00 2100,00 2500,00 2000,00 4500,00 4900,00 1500,00 3300,00 2500,00 00. Baseado nas informações da empresa determine: a) Qual o salário médio dos funcionários que possuem curso superior? b) Qual o salário mais frequente? c) Qual o salário mediano?
MEDIDAS DE POSIÇÃO - QUARTIS, DECIS E PERCENTIS Em alguns casos, o pesquisador tem interesse em conhecer outros aspectos relativos ao conjunto de dados. Nessa direção, os quartis, decis e percentis podem fornecer informações relevantes à pesquisa. Quartis: São as observações que dividem o rol em 4 partes iguais e são denotadas por Q 1, Q 2 e Q 3. Decis: São as observações que dividem o rol em 10 partes iguais e são denotadas por D 1,D 2,...,D 9. Percentis: São as observações que dividem o rol em 100 partes iguais e são denotadas por P 1, P 2,..., P 99. Note ainda que Q 2 = D 5 = P 50 = Me.
ASSIMETRIA Média = mediana = moda -> distribuição simétrica Média > Mediana > Moda -> distribuição assimétrica positiva Média < Mediana < Moda -> distribuição assimétrica negativa
MEDIDAS DE DISPERSÃO As medidas de posição apresentadas fornecem a informação dos dados apenas a nível pontual, sem ilustrar outros aspectos referentes à forma como os dados estão distribuídos na amostra. As medidas de dispersão são utilizadas para avaliar o grau de variabilidade, ou dispersão, dos valores.
MEDIDAS DE DISPERSÃO Exemplo: Notas de três turmas de Estatística da UFPB Observações importantes i) As três turmas possuem a mesma média. ii) As notas estão distribuídas sob diferentes formas. iii) A média resume o conjunto de dados apenas posição central. iv) A média não fornece informações sobre a variabilidade dos dados. Solução: Apresentar junto da média uma medida que sumarize a variabilidade do conjunto de dados.
MEDIDAS DE DISPERSÃO AMPLITUDE TOTAL Amplitude Total: Uma forma simples de medir a dispersão em um conjunto de observações é através da amplitude total: AT = max(x 1,...,X n ) min(x 1,...,X n ) Verifica-se que a amplitude como medida de dispersão é limitada. Essa medida só depende dos valores extremos, ou seja, não é afetada pela dispersão dos valores internos
MEDIDAS DE DISPERSÃO - VARIÂNCIA A variância de um conjunto de dados (amostra ou população) é uma medida de VARIABILIDADE ABSOLUTA. Ela mede a variabilidade do conjunto em termos de desvios quadrados em relação à média aritmética. É uma quantidade sempre não negativa e expressa em unidades quadradas do conjunto de dados, sendo de difícil interpretação. a) Para dados agrupados por valor:
MEDIDAS DE DISPERSÃO DESVIO PADRÃO É uma outra medida de dispersão mais comumente empregada do que a variância, por ser expressa na mesma unidade de medida do conjunto de dados. Mede a "DISPERSÃO ABSOLUTA" de um conjunto de valores e é obtida a partir da variância. S = S 2
MEDIDAS DE DISPERSÃO COEFICIENTE DE VARIAÇÃO É uma medida de VARIABILIDADE RELATIVA, útil para comparar a variabilidade de observações com diferentes unidades de medida. É definida por: Exemplo: VALORES MÉDIA D.P. C.V. 1-2 - 3 2 1 50 % 100-200 - 300 200 100 50 % 101-102 - 103 102 1 1 % É importante expressar a variabilidade em termos relativos porque, por exemplo, um desvio-padrão igual a 1 pode ser muito pequeno se a magnitude dos dados é da ordem de 1.000, mas pode ser considerado muito elevado se esta magnitude for da ordem de 10. Observe também que o coeficiente de variação é adimensional e por este motivo permite a comparação das variabilidades de diferentes conjuntos de dados.
CONSIDERAÇÕES GERAIS O conjunto de todos os possíveis elementos de uma determinada pesquisa constitui uma população estatística. Sua média é a média populacional, usualmente representada pela letra grega µ. Na grande maioria das situações práticas, a média populacional é desconhecida e deve ser estimada a partir de dados amostrais. Se a amostra for extraída de forma adequada, a média amostral X é uma boa estimativa de µ. A amplitude, apesar de ser muito fácil de calcular, tem a desvantagem de levar em consideração apenas os dois valores extremos (máximo e mínimo) da massa de dados, desprezando os demais. A variância populacional é representada por σ 2. Usualmente, a variância populacional é desconhecida e deve ser estimada a partir dos dados amostrais. Se a amostra foi extraída de forma adequada, a variância amostral S 2 é uma boa estimativa de σ 2. As medidas X, S 2 e S tomadas na amostra, denominadas ESTATÍSTICAS, são estimativas dos PARÂMETROS POPULACIONAIS µ, σ 2 e σ (supostos desconhecidos).
CONSIDERAÇÕES GERAIS
Curtose
Exemplo: Na tabela abaixo encontra-se a estrutura do produto interno bruto do Brasil, em bilhões de reais, segundo as atividades econômicas. a) Em qual dos setores ocorre a maior variabilidade? PERÍODO AGROPECUÁRIA INDÚSTRIA SERVIÇOS 2002 6,6 27,1 66,3 2003 7,4 27,8 64,8 2004 6,9 30,1 63 2005 5,7 29,3 65 2006 5,5 28,8 65,8 2007 5,6 27,8 66,6
Exemplo: Uma certa empresa que fabrica duas linhas de produtos (A e B) necessita reestruturar sua produção. Foi realizado um estudo para tal finalidade e uma das variáveis consideradas foi VENDA (quantidade mensal) de cada tipo de produto (A e B). Para este estudo foi tomado como referência o primeiro semestre de determinado ano, onde foram verificados as seguintes VENDAS: PRODUTO A 13 32 28 25 24 25 PRODUTO B 25 20 29 30 26 20 Em relação a esta variável, qual dos produtos (A ou B) apresentou maior estabilidade nas VENDAS mensais? a) Em b) A empresa decide penalizar a equipe que obteve, em algum mês, um volume de venda inferior a X -1,5S. Alguma equipe foi penalizada?