ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 014
Estatístca Descrtva e Análse Exploratóra Etapas ncas. Utlzadas para descrever e resumr os dados. A dsponbldade de uma grande quantdade de dados e de métodos computaconas muto efcentes revgorou estas áreas da Estatístca.
Estatístca
O que fazer com os dados coletados? 1 a etapa: Estatístca Descrtva e Análse Exploratóra Meddas resumo, tabelas e gráfcos. Obs. Se x representa uma varável, uma amostra com valores x 1,x,...,x n é chamada de conjunto de dados. n é o tamanho da amostra.
Varável Qualquer característca de nteresse assocada aos elementos de uma população. Classfcação de varáves Qualtatva { Nomnal Ordnal Cor, tpo de máquna Classe socal, grau de desgaste Quanttatva { Dscreta Contínua Número de acdentes, número de defetos em um tem Peso, vscosdade, pressão
Exemplo: Estudo de resstênca. Observação Espessura Tpo de cola Resstênca 1 13.00 1 46.50 14.00 1 45.90 3 1.00 1 49.80 4 1.00 1 46.10 5 14.00 1 44.30 6 1.00 48.70 7 10.00 49.00 8 11.00 50.10 9 1.00 48.50 10 14.00 45.0 11 15.00 3 46.30 1 14.00 3 47.10 13 11.00 3 48.90 14 11.00 3 48.0 15 10.00 3 50.30 16 16.00 4 44.70 17 15.00 4 43.00 18 10.00 4 51.00 19 1.00 4 48.10 0 11.00 4 48.60 Exercíco: Lea os dados no R fazendo > dados<- read.table("http://wk.cmc.usp.br/mages/6/6/resstenca.txt",headertrue) Classfque as varáves desse conjunto de dados Fonte: Montgomery, D. C. (005), Desgn and Analyss of Experments, 6th Edton, Wley: New York
Exemplo: Companha MB Um pesqusador está nteressado em fazer um levantamento sobre alguns aspectos socoeconômcos dos empregados da seção de orçamentos da Companha MB. Usando nformações obtdas do departamento pessoal, ele elaborou a tabela descrta no arquvo CompanhaMB.txt. Lea os dados em R utlzando o comando abaxo. > dados<- read.table("http://wk.cmc.usp.br/mages/f/f4/companhamb.txt", headertrue) > attach(dados) > names(dados) Exercíco: Classfque as varáves estado cvl, grau de nstrução, número de flhos, saláro, dade, regão. Que valores elas podem assumr? Fonte: Bussab e Morettn, Estatístca Básca Sarava 6ª Edção 009
Meddas resumo Meddas de posção: moda, méda, medana (meddas de tendênca central), percents, quarts. Meddas de dspersão: ampltude, ntervalo nterquartl, varânca, desvo padrão, coefcente de varação.
Meddas de posção Moda: É o valor (ou atrbuto) que ocorre com maor freqüênca. Ex. Dados: 4,5,4,6,5,8,4,4 Moda 4 Obs. 1. Nem sempre a moda exste.. Pode haver mas de uma moda. Méda: x x 1 + x + x 3 +... n + x n n 1 n x Ex. Dados:,5,3,7,11 x (+5+3+7+11)/5 5,6
Medana (Md) A medana é o valor que ocupa a posção central de um conjunto de n valores ordenados. Posção da medana: pm (n+1)/ Ex. Dados:,6,3,7,8 (n 5) Dados ordenados:,3,7,8, 6 > pm (5+1)/3 > Md 7 Ex. Dados:,15,,1,8,5 (n 6) Dados ordenados: 1,,,5,8,15 > pm (6+1)/3,5 > Md (+5) / 3,5 (méda dos elementos nas posções 3 e 4).
Quants O quantl de ordem p (0 < p < 1), em um conjunto de dados com n observações, é o valor que ocupa a posção p x (n+1) nos dados ordenados. O quantl de ordem p dexa p x 100% das observações abaxo dele na amostra ordenada. Casos partculares: Quantl 0,5 medana ou segundo quartl (md) Quantl 0,5 prmero quartl (Q1) Quantl 0,75 tercero quartl (Q3)
Exemplos Ex. 1. 1,9,0,1,5 3,0 3,1 3,3 3,7 6,1 7,7 (n 10) Posção da Md: 0,5 (n+1) 0,5x11> Md (3+3,1)/ 3,05 Posção de Q1: 0,5 (11),75 > Q1 (+,1)/,05 Posção de Q3: 0,75 (11) 8,5 > Q3 (3,7+6,1)/ 4,9 Ex.. 0,9 1,0 1,7,9 3,1 5,3 5,5 1, 1,9 14,0 33,6 (n 11) Md 5,3 Q1 1,7 Q3 1,9
Moda, medana e méda (mode, medan and mean) A moda não é muto utlzada com varáves quanttatvas. Se a varável for qualtatva nomnal, a moda é a únca medda de posção. A medana é mas resstente do que a méda. É menos afetada pela presença de valores extremos. M é d a 6,1 5 1 0 1 5 0 5 3 0 x M é d a 7,8 5 1 0 1 5 0 5 3 0 x Obs. Os quants também são chamados de separatrzes.
Exemplo Consdere as notas de uma prova aplcada a três grupos de alunos: Grupo 1: 3, 4, 5, 6, 7; Grupo : 1, 3, 5, 7,9; e Grupo 3: 5,5,5,5,5. Grupo 1 0 10 Grupo 0 10 Grupo 3 0 10 x 3 1 x 3 x 3 5; Md 1 Md 3 Md 5 5
Meddas de dspersão Fnaldade: encontrar um valor que resuma a varabldade de um conjunto de dados. Ampltude (A): A MAX - mn Para os grupos anterores (slde 15), temos Grupo 1: A 4 Grupo : A 8 Grupo 3: A 0
Ampltude nterquartl (d q ) É a dferença entre o tercero quartl e o prmero quartl: d q Q3 - Q1. Ex. 1,9,0,1,5 3,0 3,1 3,3 3,7 6,1 7,7 Q1,05 e Q3 4,9. d q Q3- Q1 4,9-,05,85. Obs. d q é uma medda mas resstente do que A.
Varânca (s ) (varance) S (x 1 x) +(x x) +... +(xn x) 1 n 1 n ( x x) n 1 Desvo padrão (s) (standard devaton) s s Obs. O desvo padrão tem a mesma undade da varável x.
Cálculo da varânca para o grupo 1 (slde 15): Grupo 1: 3, 4, 5, 6, 7: Vmos que x 5 S ( 3 5) +( 4 5) +( 5 5) 5 1 +( 6 5) +( 7 5) 10,5 4 Desvo padrão: Grupo 1: s Grupo : s Grupo 3 : s,5 s 1,58 10 s 3,16 0 s 0
Propredades: x, K, x uma amostra com méda e varânca 1 n x x s. 1. Transformação (posção e escala): y a + b x, 1,...,n. y a + bx, s y b s x e s y b s x.. n 1 ( x x) 0.
Coefcente de varação (CV) É uma medda de dspersão relatva. Exprme a varabldade em relação à méda. CV S x 100, see x 0.
Exemplo. Altura e peso de alunos Méda Desvo padrão Coefcente de varação Altura 1,143m 0,063m 5,5% Peso 50Kg 6kg 1% Conclusão. O peso dos alunos apresenta varabldade relatva aproxmadamente duas vezes maor do que a altura.
Organzação e representação dos dados Uma das formas de organzar e resumr a nformação contda em dados observados é por meo de tabelas de frequêncas e gráfcos. A frequenca de um valor da varável é o número de vezes que este valor ocorre no conjunto de dados. Tabela de frequêncas. Tabela com os dferentes valores de uma varável (ou ntervalos de valores) e suas respectvas frequencas. 1. Varáves qualtatvas. Tabela de frequêncas dos dferentes valores da varável. Representação gráfca: gráfco de barras, de Pareto e gráfco de setores ( de pzza ).
Exemplo. Varável Grau de nstrução (varável qualtatva ordnal) Grau de nstrução Contagem f f r 1 o Grau 1 0,3333 o Grau 18 0,5000 Superor Total 6 n 36 0,1667 1,0000 f : frequênca absoluta do valor (número de ndvíduos com grau de nstrução ), {1 o Grau, o Grau, Superor}. f r f n : frequênca relatva do valor.
Elementos de um gráfco Fgura 1. Descrção do gráfco.
Representação gráfca de varáves qualtatvas Gráfco de barras: retângulos vertcas (ou horzontas) espaçados com alturas (ou bases) guas às frequencas dos valores da varável. 60,00% 50,00% 40,00% 30,00% 0,00% 10,00% 0,00% Dagrama de barras para a varável grau de nstrução 33,33% 50,00% 16,70% 1o Grau o Grau Superor Grau de nstrução Exercíco: ver opções de > barplot(table(nstrucao)) Regão de orgem SE NE S CO N 3.75 7.5 16.5 31.5 41.5 0 10 0 30 40 Percentagem
Gráfco de Pareto Gráfco de barras com os valores da varável em ordem decrescente de frequencas e com as frequencas relatvas acumuladas no segundo exo vertcal. Frequenca SE NE S CO N 0 0 40 60 80 0% 5% 50% 75% 100% Cumulatve Percentage Exercíco: executar e ver opções de > lbrary(qcc) > pareto.chart(table(regao)) Regão de orgem
Gráfcos de setores ( de pzza ) Gráfco crcular utlzado para destacar a composção das partes de um todo. O ângulo central de cada setor é proporconal à frequenca representada (usualmente em %). Dagrama crcular para a varavel grau de nstrução 1o Grau (33.3%) Dagrama crcular para a varável grau de nstrução Superor 17% 1o Grau 33% o Grau (50.0%) Superor (16.7%) o Grau 50% Exercíco: executar e ver opções de > pe(table(nstrucao))
. Organzação e representação de varáves quanttatvas.1 Dscretas. Organzam-se medante tabelas de frequêncas e a representação gráfca é medante gráfco de pontos, de barras ou de lnha. Frequênca relatva do valor x : f r f / n. Frequênca acumulada do valor x : Exemplo. Número de defetos em lotes de produtos. F f 1 + f + L + f j 1 f j Dstrbução de frequêncas do número de defetos por lote.
Meddas de posção e dspersão para varáves quanttatvas dscretas agrupados em tabela de freqüêncas: Méda: x x1 f1 + x f + L+ x n Exemplo. Determne o número médo de defetos por lote. Medana: k f k k 1 0 4+ 1 5+ 7+ 3 3+ 5 1 33 x 1,65 0 0 n 0: pm (0+1) / 10,5 > Md méda dos valores com frequencas acumuladas guas a 10 e 11 ( + ) / (lâmna 40). Moda? x n f
Varânca: s Exemplo. s (x 1 x ) 4( 0 1,65) 16,315 0,859 19 Desvo padrão: f 1 +(x + 5( 1 1,65) x ) f + L+(x n 1 s s 0,97 k + 7( 1,65) 19 x ) f k + 3( 3 1,65) k 1 (x x ) n 1 +( 5 1,65) Coefcente de varação: s 0,9 CV 100% 100% 55,8% x 1,65 f
. Construção de tabelas de frequêncas para varáves contínuas Escolha o número de ntervalos de classe (k) Identfque o menor valor (mn) e o valor máxmo (MAX) dos dados. Calcule a ampltude (A): A MAX mn. Calcule a ampltude de classe (h): h A / k. Obtenha os lmtes nferor (LI) e superor (LS) de cada classe. 1 o ntervalo : Lmte nferor Lmte superor : LI 1 : LS 1 mn LI 1 + h Lmte Lmte... Lmte Lmte ntervalo - ésmo nferor superor ntervalo nferor superor : LS : LI : LS Prossga até que seja obtdo um ntervalo que contenha o valor máxmo (MAX). o : : LI : LS LS LI LI 1 1 + h + h
Obs. Mutas vezes, por convenênca, arredondamos os valores de h e/ou LI 1. Tabela de de frequêncas com as colunas: Número de ordem de cada ntervalo () Lmtes de cada ntervalo. Os ntervalos são fechados à esquerda e abertos à dreta. Notação: Ponto médo (ou marca de classe) de cada classe: x LS +LI *.
Frequênca absoluta de uma classe (f ): número de observações pertencentes à classe. Frequênca relatva de uma classe: f r f / n. Frequênca acumulada absoluta de uma classe: F f 1 + f + L + f j 1 f j. Frequênca acumulada relatva de uma classe: F r f r 1 + f r + L+ f r f ou F F. r j r j 1 n
Exemplo Varável: vscosdade (em u.v.) de um líqudo a uma certa temperatura. > vscosdade <- c(13.9,14.9,15.9,15.8,14.8,15.1,15.8,15.0,15.1,14.6,14.7, 16.6,13.6,15.9,13.1,15.,14.7,16.0,15.6,17.4,15.3,14.,15.9,15.1,15.9,16.1, 16.,13.8,14.6,16.0,15.8,15.5,16.5,17.1,15.3,15.5,17.8,15.4,15.4,14.6) Amostra ordenada: > sort(vscosdade) 13.1 13.6 13.8 13.9 14. 14.6 14.6 14.6 14.7 14.7 14.8 14.9 15.0 15.1 15.1 15.1 15. 15.3 15.3 15.4 15.4 15.5 15.5 15.6 15.8 15.8 15.8 15.9 15.9 15.9 15.9 16.0 16.0 16.1 16. 16.5 16.6 17.1 17.4 17.8 n 40 Mn. Medan Mean Max. 13.10 15.40 15.39 17.80 Procedmento: Adotamos k 5. mn 13,10 e MAX 17,80. A MAX mn 17,8 13,10 4,7. h 4,7 / 5 0,94. Adotamos h 1 e LI 1 13. Lmtes das classses: LI 1 13, LS 1 LI 1 + h 14, LI LS 1 14, LS LI + h 15,, LI 5 LS 4 17 e LS 5 LI 5 + h 18.
Pontos médos: x 13 + 14 * 14 + 15 * 17 + 18 13,5; x 14,5;...; x5 * 1 17,5. Tabela. Dstrbução de frequêncas da varável vscosdade. Ordem Classe Ponto médo Frequênca Frequênca relatva Frequênca acumulada Frequênca relatva acumulada 1 13 -- 14 13,5 4 0,1 4 0,1 14 -- 15 14,5 8 0, 1 0,3 3 15 -- 16 15,5 19 0,475 31 0,775 4 16 -- 17 16,5 6 0,15 37 0,95 5 17 -- 18 17,5 3 0,075 40 1 Total 40 1 - - Nesta organzação de dados temos perda de nformação. Em um gráfco de pontos não há perda de nformação, mas se n for grande, pode haver perda de clareza. Densdade de freqüênca (ou densdade):. f d f r h
Representação gráfca: Hstograma Gráfco de barras adjacentes com bases guas às ampltudes das classes e alturas guas às densdades. Obs. Se as classes tverem ampltude constante, as alturas das barras usualmente são guas às frequencas. Propredade. Se utlzarmos densdades, soma das áreas dos retângulos 1, pos f k k k f r f h h 1 d 1 h 1 Obs. 1. A ampltude das classes pode varar. r 1.. Na construção de um hstograma, quanto maor for n, melhor.
Exemplo. Varável vscosdade. > hst(vscosdade, breaks 6) > hst(vscosdade, breaks 6, freqf) > hst(vscosdade, breaks 10, freqf, man"hstograma de vscosdade", ylab"densdade")
Escolha do número de classes (geralmente, 5 k 15). k31 k13 Densdade 0.0 0. 0.4 Densdade 0.0 0.1 0. 0.3 7 8 9 10 11 1 13 X 7 8 9 10 1 X k7 k4 Densdade 0.00 0.10 0.0 0.30 Densdade 0.00 0.10 0.0 6 7 8 9 10 1 X 6 8 10 1 14 X
Méda e varânca para varáves contínuas agrupadas em classes Méda: x Varânca: * * * x1 f1 + x f + L xk f k 1 n s 1 * ( x x) n 1 Exemplo. Varável vscosdade 13,5 4+ 14,5 8+ 15,5 19+ 16,5 6+ 17,5 3 x 40 616 15,4. 40 k f k x n * f 5 * ( x x) f 1 41,6 s 1,067. 40 1 39 s 1,033 (desvo padrão). Méda dos dados não agrupados (dados brutos) : x1 + x + L + x 36 13,9 + 14,9 + L + 14, 6 x 15,39. 40 40 Este resultado dfere do valor obtdo anterormente. Por quê?
Gráfco de caxas (boxplot) Representação dos dados por meo de um retângulo construído com os quarts. Fornece nformação sobre a varabldade (d q Q 3 Q 1 ) e valores extremos.
Exemplo. Varável vscosdade. 1 º quartl (Q1) 14,775. Em R: >quantle(vscosdade, 0.5) Medana (Md ou Q) 15,4. Em R: >quantle(vscosdade, 0.5) 3 º quartl (Q3) 15,9. Em R: >quantle(vscosdade, 0.75) d q ntervalo nterquartl Q3 Q1 1,15. Lnhas auxlares passam por Q1 1,5d q 13,0875 e Q3 +1,5d q 17,5875. > boxplot(vscosdade, xlab "Vscosdade", horzontal TRUE, col"blue")
Exemplo. Varável vscosdade medda em duas temperaturas. Temperatura 1 > vsc1 <- c(13.9,14.9,15.9,15.8,14.8,15.1,15.8,15.0,15.1,14.6,14.7,16.6, 13.6,15.9,13.1,15.,14.7,16.0,15.6,17.4,15.3,14.,15.9,15.1,15.9,16.1,16.,13.8, 14.6,16.0,15.8,15.5,16.5,17.1,15.3,15.5,17.8,15.4,15.4,14.6) Temperatura > vsc <- c(13.3,14.5,15.3,15.3,14.3,14.8,15.,14.5,14.6,14.1,14.3,16.1,13.1, 15.5,1.6,14.6,14.3,15.4,15.,16.8,14.9,13.7,15.,14.5,15.3,15.6,15.8,13.3, 14.1,15.4,15.,15.,15.9,16.5,14.8,15.1,17.0,14.9,14.8,14.0) Exercíco > lbrary(plotrx) > par(mfrowc(,1)) > dotplot.mtb(vsc1) > dotplot.mtb(vsc1) Exercíco > boxplot(vsc1,vsc)
Boxplot em R Redução de volume 0 0 40 60 80 100 10 A B C D E F G H Tp o d e a d tvo Análse exploratóra. Redução versus tpo. Varabldade. Smetra. Valores extremos.
Gráfco de lnha O Estado de S. Paulo, 8//010.