Análise Descritiva de Dados Resumindo os dados de variáveis quantitativas Síntese Numérica
Descrição e Apresentação de Dados Dados 37 39 34 34 30 35 38 32 32 30 46 36 40 31 39 33 33 35 29 27 39 Ferramentas Análise Descritiva e Exploratória Tabelas Gráficos organizar resumir Medidas de Síntese Númerica identificar o elemento típico quantificar a variabilidade
Como resumir os dados de uma variável quantitativa? Síntese Númerica Medidas de Tendência Central Medidas de Variabilidade Identificam o elemento típico do conjunto de dados. Quantificam a dispersão (variabilidade) dos dados em torno do elemento típico.
Medidas de Tendência Central Se todas as seis pessoas tivessem o mesmo peso, qual deveria ser este valor para não exceder a carga máxima permitida? O peso médio deve ser de 70 Kg. Média Aritmética
Medidas de Tendência Central Qual é o valor de peso que separa a metade mais leve da metade mais pesada no elevador? 60 98 40 40 55 60 70 75 98 O peso mediano é 65 Kg 55 75 70 Mediana
Medidas de Tendência Central Qual é peso mais frequente dentre os ocupantes do elevador? 55 98 40 A moda de peso é 55 Kg Moda 60 75 55
Média Aritmética Simples Alguma Notação n x i xi X número de indivíduos no conjunto de dados valor da i-ésima observação do conjunto de dados, i = 1, 2, 3,..., n soma de todas as observações da amostra (a letra grega Σ é o símbolo que indica soma). é o símbolo usado para representar a média aritmética simples. X = Soma de todas as observações da amostra tamanho da amostra = x i n
Média Aritmética Simples No conjunto de dados ( 3 ; 4.5 ; 5.5 ; 2.5 ; 1.3 ; 6 ), temos n = 6, x 1 = 3 x 2 = 4.5 x 3 = 5.5 x 4 = 2.5 x 5 = 1.3 x 6 = 6 x i = 3 + 4.5 + 5.5 + 2.5 + 1.3 + 6 = 22.8 e 22.8 X = = 6 3.8 Identifica qual seria contribuição típica de cada elemento do conjunto de dados se todos contribuíssem igualmente.
Mediana n é ímpar Existe um só valor do meio Dados ( 2 ; 3.3 ; 2.5 ; 5.6 ; 5 ; 4.3 ; 3.2 ). Ordenando os valores (2 ; 2.5 ; 3.2 ; 3.3 ; 4.3 ; 5 ; 5.6). O valor do meio é o 3.3. A mediana é o valor 3.3. n é par Existem dois valores do meio Dados ( 3 ; 4.5 ; 5.5 ; 2.5 ; 1.3 ; 6 ). Ordenando os valores (1.3 ; 2.5 ; 3 ; 4.5 ; 5.5 ; 6) Os valores do meio são 3 e 4.5. A mediana é (3 + 4.5)/2 = 3.75. Valor que divide o conjunto de dados ordenados em duas partes com o mesmo número de observações.
1,8 Moda 1,3 0,8 1 2 3 4 5 Conjunto de dados unimodal 1,8 Valor mais frequente do conjunto de dados 1,3 0,8 1 2 3 4 5 6 7 8 9 Conjunto de dados bimodal 1,6 1,5 1,4 1,3 1,2 1,1 1 1 2 3 4 5 6 7 8 9 Conjunto de dados amodal
Média versus Mediana A Média Aritmética é muito influenciada pela presença de valores extremos no conjunto de dados A Mediana é mais robusta à presença destes valores discrepantes Exemplo: conjunto de dados (2, 2.25, 3.5, 3.75, 4, 9). A média é 4.08 e a mediana é 3.63. Sem o valor 9, a média é 3.10 e a mediana é 3.5.
Média versus Mediana Representação gráfica do salário dos funcionários de uma empresa (em salários-mínimos) [Reis e Reis, 2001] Situação I: dados completos: Média = 24.6 SM Mediana = 4 SM Situação II: sem os quatro valores mais altos: Média = 9.8 SM Mediana = 3 SM
Moda versus Mediana e Média Exemplo: Considere uma pesquisa de opinião na qual foi perguntado a 26 pessoas de baixa renda: Incluindo crianças e adultos, que tamanho de família você acha ideal? Tamanho ideal da família Freqüência da resposta 1 1 2 2 3 6 4 2 5 1 6 2 7 3 8 6 9 2 10 1 Média = Mediana = 6 pessoas Modas = 3 e 8 pessoas 10 [Reis e Reis, 2001]
Forma da distribuição de freqüências e as posições relativas das medidas de tendência central. Simétrica moda = mediana = média Assimétrica com concentração à esquerda moda < mediana < média Assimétrica com concentração à direita moda > mediana > média
Resumindo: Medidas de Tendência Central Média Aritmética Mediana Identifica qual seria contribuição típica de cada elemento do conjunto de dados se todos contribuíssem igualmente. Valor que divide o conjunto de dados em duas partes com o mesmo número de observações. Moda Valor mais frequente do conjunto de dados
Medidas de Variabilidade Identificar o elemento típico de um conjunto de dados não é suficiente para caracterizá-lo. Dois conjuntos de dados podem ter o mesmo elemento típico, mas serem diferentes um do outro. É necessário quantificar a dispersão em torno do elemento típico, ou seja, quantificar a variabilidade de um conjunto de dados.
O experimento das balanças: duas balanças pesam repetidamente uma esfera de 1000 gramas Balança A Balança B 900 950 1000 1050 1100 Peso (em gramas) [Reis e Reis, 2001]
Como quantificar as diferenças entre as medições das duas balanças? Alternativa: diferença entre o valor máximo e o mínimo das medições. Balança A: 1040g 945g = 95g Balança B: 1095g 895g = 200g. AT = Máximo Mínimo Amplitude Total
A Amplitude Total é uma medida simples de variabilidade, porém é muito grosseira AT 1 = 100 2 = 98 AT 2 = 100 2 = 98 Só considera os extremos do conjunto de dados
Precisamos de uma medida de dispersão que considere todos os elementos do conjunto de dados ( x x) i n i= 1 ( x x) i n Medida de distância mais simples entre dois valores Distância típica de cada elemento até o valor médio Idéia: usar a distância de cada elemento até o elemento típico do conjunto de dados
n Problema: ( x x) é sempre zero i= 1 i Coluna 1 Coluna 2 Coluna 3 X i Soma 1 1.5 2 3.5 4 4 4.5 6 6.5 7 40 Média 40/10 = 4
n Problema: ( x x) é sempre zero Solução: eliminar o sinal dos desvios negativos Como: elevando todos os desvios ao quadrado i= 1 Soma i Coluna 1 Coluna 2 Coluna 3 X i 1 1.5 2 3.5 4 4 4.5 6 6.5 7 40 ( x x) -3-2.5-2 -0.5 0.5 2.5 Média 40/10 = 4 0/10 = 0 i 0 0 2 3 0
Nova medida de dispersão n i= 1 ( x x) i n 1 variância 2 Soma Coluna 1 Coluna 2 Coluna 3 2 X i 1 1.5 2 3.5 4 4 4.5 6 6.5 7 40 ( x x) -2.5-0.5 Média 40/10 = 4 0/10 = 0 39/9 = 0.43 i -3-2 0 0 0.5 2 2.5 3 0 ( x x) i 9 6.25 4 0.25 0 0 0.25 4 6.25 9 39
2 Problema: ( x x) ( n 1) é uma média de i= 1 desvios ao quadrado n i Unidade de medida foi alterada cm cm 2 pessoas pessoas 2 (!!) toneladas toneladas 2 (!!) Solução: voltar às unidades originais usando a operação inversa raiz quadrada n i= 1 ( x x) i n 1 2 Desvio-Padrão
O Desvio-Padrão representa o desvio típico dos elementos do conjunto de dados até seu centro (a média) No exemplo anterior: (1.0, 1.5, 2.0, 3.5, 4.0, 4.0, 4.5, 6.0, 6.5, 7.0) Média = 4.0 39 Desvio-Padrão: s = = 4.3 = 2.1 10 1 O Desvio-Padrão (s) será usado como padrão de desvio Exemplo: o valor 5.0 está longe ou perto do valor típico do conjunto de dados? 5.0 4.0 = 1.0 = 0.48 2.1 2.1 O valor 5.0 está 0.48 desvios-padrão acima da média
Para que serve o Desvio-Padrão? O Desvio-padrão serve para quantificar a variabilidade de um conjunto de dados; a distância entre um elemento e o valor típico de seu grupo.
1/2 Voltandoaoexemplodas balanças 10 medições da balança A 999.6 983.0 1018.4 990.0 1004.4 1009.9 991.8 1001.9 999.9 1003.0 10 medições da balança B 985.0 961.0 989.8 1012.2 984.2 1029.3 1010.3 1020.0 979.9 1030.0 A B 960 970 980 990 1000 1010 1020 1030 Peso (em gramas)
2/2 Voltandoaoexemplodas balanças (999.6 + 983.0 +... + 999.9 + 1003.0) X A = = 1000.19 gramas 10 (985.0 + 961.0 +... + 979.9 + 1030.0) XB = = 1000.17 gramas 10 ( 2 ) 2 (999.6-1000.19) +... + (1003.0-1000.19) ) s A = = 10.14 gramas 9 ( 2 ) 2 (985.0-1000.17) +... + (1030.0-1000.17) ) s B = = 9 23.37 gramas
Questão: correr 431m a mais do que a média do grupo é bom ou muito bom? s =327 metros Média do grupo = 1558 m Meu desempenho = 1989 m 1989 m 1558 m = 431m s =550 metros 431 1.32 327 = Muito bom! 431 550 = 0.78 Bom
Regra do Desvio-Padrão para Dados com Distribuição Simétrica [Reis e Reis, 2001]
Um desvio-padrão igual a 10 é grande ou pequeno? s=10 significa muita dispersão se X=100 s=10 significa pouca dispersão se X=1000 10 0.1 (10%) 100 = 10 1000 = 0.01 (1%) Para termos idéia da magnitude do valor do desvio-padrão, é necessário verificar o quanto ele ocupa da escala de medida, representada pela média.
Coeficiente de Variação (CV) CV = S X O Coeficiente de Variação não tem unidade de medida Podemos usar o CV para comparar a variabilidade (dispersão) de grupos diferentes e até de variáveis diferentes
Comparando a homogeneidade de grupos e variáveis diferentes Duhn, 2001
Para compreender melhor Caderno de Exercícios Exercícios da Seção 2 Exercícios 2.7, 2.9 (letras a e b), 2.11, 2.12 (letras a.1 e b), 2.13 (letra a.1), 2.14 (letra a) www.minha.ufmg.br
Como fazer usando o R? Cálculo das Medidas-Resumo formigas <- read.table("formigas.txt",header=t) Media.especies <- mean(formigas$riqueza) Mediana.especies <- median(formigas$riqueza) DesvioPadrao.especies <- sd(formigas$riqueza) CV.Especies <- DesvioPadrao.especies / Media.especies
Como fazer usando o R? Cálculo das Medidas-Resumo formigas.floresta <- formigas$riqueza[formigas$habitat=="floresta"] formigas.pantano <- formigas$riqueza[formigas$habitat=="pantano"] Media.Floresta <- mean(formigas.floresta) Mediana.Floresta <- median(formigas.floresta) DesvioPadrao.Floresta <- sd(formigas.floresta) CV.Floresta <- DesvioPadrao.Floresta / Media.Floresta
Como fazer usando o R? Cálculo das Medidas-Resumo Media.Pantano <- mean(formigas.pantano) Mediana.Pantano <- median(formigas.pantano) DesvioPadrao.Pantano <- sd(formigas.pantano) CV.Pantano <- DesvioPadrao.Pantano / Media.Pantano Media.Pantano ; Media.Floresta Mediana.Pantano ; Mediana.Floresta DesvioPadrao.Pantano ; DesvioPadrao.Floresta CV.Pantano ; CV.Floresta
Fim da quarta aula Análise Descritiva de Dados: Resumindo os Dados de Variáveis Quantitativas Próxima Aula Análise Descritiva de Dados: Medidas de Posição
Referências Bibliográficas DUHN, P. (2001) Datasets for Statistical Analysis. Disponível em: http://www.sci.usq.edu.au/staff/dunn/datasets/applications/popular/cho colates.html REIS, E.A.; REIS, I.A. (2001) Análise Descritiva de Dados- Tabelas e Gráficos, Relatório Técnico do Departamento de Estatística da UFMG. Disponível em: http://www.est.ufmg.br