ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 0 Estatístca Descrtva e Análse Eploratóra Realzadas em etapas ncas. Utlzadas para descrever e resumr os dados. A dsponbldade de grande quantdade de dados e de métodos computaconas ecentes revgorou estas áreas da Estatístca. Probabldade Permte estudar os enômenos aleatóros, ou seja, aqueles em que está presente a ncerteza sobre os resultados.
Estatístca Estatístca
O que é Estatístca? Para mutos, Estatístca não passa de conjuntos de tabelas de dados numércos. Os estatístcos são pessoas que planejam a obtenção dos dados. A Estatístca orgnou-se com a coleta e apresentação de dados para uso dos governos. A stuação evoluu e a coleta representa somente um dos aspectos da Estatístca. Denção de Estatístca A Estatístca é uma cênca baseada na Teora da Probabldade, cujo objetvo prncpal é nos aular a tomar decsões ou trar conclusões em stuações de ncerteza, a partr de dados. População: conjunto de todas as undades que são de nteresse, possuem certa característca comum. Amostra: qualquer subconjunto da população seleconado de acordo com certas regras. Censo: estudo que nclu todos os elementos da população. 3
Coleta Epermento (controlado, planejado) Eeto de um ou mas atores sobre outro(s). Intererênca do pesqusador. Controle sobre atores eternos. Levantamento observaconal Dados são coletados como estão. Não há ntererênca do pesqusador. Levantamento amostral (survey) População bem denda. Protocolo de coleta. Amostragem Uma área mportante em mutas aplcações estatístcas é a da Tecnologa de Amostragem. Eemplos: Pesqusa de mercado, Pesqusa de opnão, Avalação do processo de produção. 4
Amostragem Probablístca Cada elemento da população tem uma chance conhecda de ser seleconado. Amostragem por Convenênca Seleconar elementos de ácl acesso ou de nteresse para o estudo. Tpos de Amostragem Probablístca Amostragem por Conglomerados Dvdr a população em conjuntos homogêneos, mas com elementos heterogêneos. Seleconar aleatoramente alguns destes conjuntos e tomar amostras deles. Amostragem Estratcada Classcar a população em pelo menos dos estratos e seleconar uma amostra de cada um. Amostragem Sstemátca Seleconar um elemento a cada k. 5
Conronto no segundo turno Eemplo Numa pesqusa eletoral um nsttuto de pesqusa procura, com base nos resultados de um levantamento aplcado a uma amostra da população, prever o resultado da eleção. Eleção presdencal. Os nsttutos de pesqusa de opnão colhem perodcamente amostras de eletores para obter as estmatvas de ntenção de voto da população. As estmatvas são ornecdas com um valor e uma margem de erro. A gura a segur (Insttuto Toledo & Assocados) reere-se à ntenção de voto no o turno das eleções para presdente em 00. 6
Intenção de voto para presdente do Brasl-00 Voto estmulado, em % do total de votos. A últma pesqusa ouvu.0 eletores. Margem de erro de,09%. Fonte:Pesqusa Toledo & Assocados. O que azer com os dados coletados? a etapa: Estatístca Descrtva e Análse Eploratóra Meddas resumo, tabelas e grácos. Obs. Se representa uma varável, uma amostra com valores,,..., n é chamada de conjunto de dados. n é o tamanho da amostra. 7
Varável Qualquer característca de nteresse assocada aos elementos de uma população. Classcação de varáves { Qualtatva Nomnal Ordnal Cor, tpo de máquna Classe socal, grau de desgaste Quanttatva { Contínua Dscreta Número de acdentes, número de deetos em um tem Peso, vscosdade, pressão Eemplo. Estudo de resstênca. Observação Espessura Tpo de cola Resstênca 3 46,5 4 45,9 3 49,8 4 46, 5 4 44,3 6 48,7 7 0 49,0 8 50, 9 48,5 0 4 45, 5 3 46,3 4 3 47, 3 3 48,9 4 3 48, 5 0 3 50,3 6 6 4 44,7 7 5 4 43,0 8 0 4 5,0 9 4 48, 0 4 48,6 Fonte: Montgomery, D. C. (005), Desgn and Analyss o Eperments, 6th Edton, Wley: New York 8
Meddas resumo Meddas de posção: moda, méda, medana, percents, quarts. (meddas de tendênca central: três prmeras) Meddas de dspersão: ampltude, ntervalo nterquartl, varânca, desvo padrão, coecente de varação. Meddas de posção Moda (Mo): É o valor (ou atrbuto) que ocorre com maor reqüênca. E. Dados: 4,5,4,6,5,8,4,4 mo 4 Obs.. Nem sempre a moda este.. Pode haver mas de uma moda. Méda: E. Dados:,5,3,7, + + 3 +... + n n n n (+5+3+7+)/5 5,6 9
Medana (Md) A medana é o valor que ocupa a posção central de um conjunto de n valores ordenados. Posção da medana: pm (n+)/ E. Dados:,6,3,7,8 (n 5) Dados ordenados:,3,7,8, 6 > pm (5+)/3 > Md 7 E. Dados:,5,,,8,5 (n 6) Dados ordenados:,,, 5, 8, 5 > pm (6+)/3,5 > Md (+5) / 3,5 (méda dos elementos nas posções 3 e 4). Quants (quantles) O quantl de ordem p (0 < p < ), em um conjunto de dados com n observações, é o valor que ocupa a posção p (n+) nos dados ordenados. O quantl de ordem p dea p 00% das observações abao dele na amostra ordenada. Casos partculares: Quantl 0,5 medana ou segundo quartl (md) Quantl 0,5 prmero quartl (Q) Quantl 0,75 tercero quartl (Q3) 0
Eemplos E..,9,0,,5 3,0 3, 3,3 3,7 6, 7,7 (n 0) Posção da Md: 0,5(n+)0,5 > Md (3+3,)/ 3,05 Posção de Q: 0,5(),75 > Q (+,)/,05 Posção de Q3: 0,75()8,5 > Q3 (3,7+6,)/ 4,9 E.. 0,9,0,7,9 3, 5,3 5,5,,9 4,0 33,6 (n ) Md 5,3 Q,7 Q3,9 Moda, medana e méda (mode, medan and mean) A moda não costuma ser utlzada com varáves quanttatvas. Se a varável or qualtatva nomnal, a moda é a únca medda de posção. A medana é menos aetada pela presença de valores etremos. M é d a 6, 5 0 5 0 5 3 0 M é d a 7, 8 5 0 5 0 5 3 0 Obs. Os quants também são chamados de separatrzes.
Consdere as notas de uma prova aplcada a três grupos de alunos: Grupo : 3, 4, 5, 6, 7; Grupo :, 3, 5, 7, 9; e Grupo 3: 5, 5, 5, 5, 5. Grupo 0 0 Grupo 0 0 Grupo 3 0 0 5 3 5; Md Md Md 3 5 Meddas de dspersão Fnaldade: encontrar um valor que resuma a varabldade de um conjunto de dados. Ampltude (A): A ma - mn Para os grupos anterores (slde 3), temos Grupo : A 4 Grupo : A 8 Grupo 3: A 0
Intervalo ou ampltude nterquartl (d q ) (nterquartle range) É a derença entre o tercero quartl e o prmero quartl: d q Q3 - Q. E.,9,0,,5 3,0 3, 3,3 3,7 6, 7,7 Q,05 e Q3 4,9. d q Q3- Q 4,9-,05,85. Obs. d q é uma medda mas resstente do que A. Varânca (s ) (varance) ( ) +( S ( ) ) +... +(n ) n n Desvo padrão (s) (standard devaton) s s Obs. O desvo padrão tem a mesma undade da varável. n 3
Cálculo da varânca para o grupo (lâmna 4): Grupo : 3, 4, 5, 6, 7: Vmos que 5 ( 3 5) +( 4 5) +( 5 5) +( 6 5) +( 7 5) S 5 Desvo padrão: Grupo : s Grupo : s Grupo 3 : s,5 s,58 0 s 3,6 0 s 0 0,5 4 Propredades:, K, uma amostra com méda e varânca s n. Transormação (posção e escala): y a + b,,...,n. y a + b, s y b s e s y b s. 4
Coecente de varação (CV) É uma medda de dspersão relatva. Eprme a varabldade em relação à méda. CV S 00, see 0. Eemplo. Altura e peso de alunos Méda Desvo padrão Coecente de varação Altura,43m 0,063m 5,5% Peso 50Kg 6kg % Conclusão. O peso dos alunos apresenta varabldade relatva apromadamente duas vezes maor do que a altura. 5
Um eemplo Rendmento (em %) de 90 bateladas de um substrato de cerâmca no qual um revestmento metálco o aplcado. > n: 90 tems > Mn. st Qu. Medan Mean 3rd Qu. Ma. 78.30 86.0 89.5 89.38 93.0 98.00 > S 4.35905 > 0% 40% 70% 90% 84.0 87.60 9.8 95. Eemplo (Gráco de pontos) Propredad e : n ( ) 0. 80 85 90 95 Rendmento (% ) 6
Organzação e representação dos dados Uma das ormas de organzar e resumr a normação contda em dados observados é por meo de tabelas de requêncas e grácos. A requênca de um valor da varável é o número de vezes que este valor ocorre no conjunto de dados. Tabela de requêncas. Tabela com os derentes valores de uma varável (ou ntervalos de valores) e suas respectvas requêncas.. Varáves qualtatvas. Tabela de requêncas dos derentes valores da varável. Representação gráca: gráco de barras, de Pareto e gráco de setores ( de pzza ). Eemplo. Varável Grau de nstrução (varável qualtatva ordnal) Grau de nstrução Contagem r o Grau 0,3333 o Grau 8 0,5000 Superor Total 6 n 36 0,667,0000 : requênca absoluta do valor (número de ndvíduos com grau de nstrução ), { o Grau, o Grau, Superor}. r n : requênca relatva do valor I. 7
Elementos de um gráco Fgura. Descrção do gráco. Representação gráca de varáves qualtatvas Gráco de barras: retângulos vertcas (ou horzontas) espaçados com alturas (ou bases) guas às requencas dos valores da varável. Dagrama de barras para a varável grau de nstrução 60,00% 50,00% 40,00% 30,00% 0,00% 0,00% 33,33% 50,00% 6,70% Regão de orgem SE NE S CO N 3.75 7.5 6.5 3.5 4.5 0,00% o Grau o Grau Superor 0 0 0 30 40 Grau de nstrução Percentagem 8
Gráco de Pareto Gráco de barras com os valores da varável em ordem decrescente de requencas e com as requêncas relatvas acumuladas no segundo eo vertcal. SE NE S CO N Frequenca 0 0 40 60 80 0% 5% 50% 75% 00% Cumulatve Percentage Regão de orgem Grácos de setores ( de pzza ) Gráco crcular utlzado para destacar a composção das partes de um todo. O ângulo central de cada setor é proporconal à requenca representada (usualmente em %). Dagrama crcular para a varavel grau de nstrução o Grau (33.3%) Dagrama crcular para a varável grau de nstrução Superor 7% o Grau 33% o Grau (50.0%) Superor (6.7%) o Grau 50% 9
. Organzação e representação de varáves quanttatvas. Dscretas. Organzam-se medante tabelas de requêncas e a representação gráca é medante gráco de pontos, de barras ou de lnha. Frequênca relatva do valor : r / n. Frequênca acumulada do valor : Eemplo. Número de deetos em lotes de produtos. Dstrbução de requêncas do número de deetos por lote. F + + L + j j Representação gráca 0
Meddas de posção e dspersão para varáves quanttatvas dscretas agrupados em tabela de reqüêncas: Méda: + + n L + k k k Eemplo. Determne o número médo de deetos por lote. Medana: 0 4+ 5+ 7+ 3 3+ 5 33,65 0 0 n 0: pm (0+) / 0,5 > Md méda dos valores com requencas acumuladas guas a 0 e ( + ) / (slde 39). Moda? n Varânca: s Eemplo. ( ) +( ) + L+(k ) n k k ( ) n 4( 0,65) + 5(,65) + 7(,65) + 3( 3,65) +( 5,65) s 9 6,35 0,859 9 Desvo padrão: s s 0,97 Coecente de varação: s 0,9 CV 00% 00% 55,8%,65
. Construção de tabelas de requêncas para varáves contínuas Escolha o número de ntervalos de classe (k) Identque o menor valor (mn) e o valor mámo (MAX) dos dados. Calcule a ampltude (A): A MAX mn. Calcule a ampltude de classe (h): h A / k. Obtenha os lmtes neror (LI) e superor (LS) de cada classe. o ntervalo : Lmte neror : LI mn Lmte superor : LS LI + h... o Lmte - ésmo Lmte ntervalo Lmte superor : LS : neror ntervalo neror : LI : LI LS LI LS + h Lmte superor : LS LI + h Prossga até que seja obtdo um ntervalo que contenha o valor mámo (MAX). : Obs. Mutas vezes, por convenênca, arrredondamos os valores de h e/ou LI. Tabela de de requêncas com as colunas: Número de ordem de cada ntervalo () Lmtes de cada ntervalo. Os ntervalos são echados à esquerda e abertos à dreta. Notação: Ponto médo (ou marca de classe) de cada classe: * LS +LI.
Frequênca absoluta de uma classe ( ): número de observações pertencentes à classe. Frequênca relatva de uma classe: r / n. Frequênca acumulada absoluta de uma classe: F + + L + j j. Frequênca acumulada relatva de uma classe: F r r + r + L+ r ou F F. r j r j n Eemplo Varável: vscosdade (em u.v.) de um líqudo a uma certa temperatura. 3.9 4.9 5.9 5.8 4.8 5. 5.8 5.0 5. 4.6 4.7 6.6 3.6 5.9 3. 5. 4.7 6.0 5.6 7.4 5.3 4. 5.9 5. 5.9 6. 6. 3.8 4.6 6.0 5.8 5.5 6.5 7. 5.3 5.5 7.8 5.4 5.4 4.6 Amostra ordenada: 3. 3.6 3.8 3.9 4. 4.6 4.6 4.6 4.7 4.7 4.8 4.9 5.0 5. 5. 5. 5. 5.3 5.3 5.4 5.4 5.5 5.5 5.6 5.8 5.8 5.8 5.9 5.9 5.9 5.9 6.0 6.0 6. 6. 6.5 6.6 7. 7.4 7.8 n 40 Mn. Medan Mean Ma. 3.0 5.40 5.39 7.80 Procedmento: Adotamos k 5. mn 3,0 e MAX 7,80. A MAX mn 7,8 3,0 4,7. h 4,7 / 5 0,94. Adotamos h e LI 3. Lmtes das classses: LI 3, LS LI + h 4, LI LS 4, LS LI + h 5,, LI 5 LS 4 7 e LS 5 LI 5 + h 8. 3
Pontos médos: 3 + 4 * 4 + 5 * 7 + 8 3,5; 4,5;...; 5 * 7,5. Tabela. Dstrbução de requêncas da varável vscosdade. Ordem Classe Ponto médo Frequênca Frequênca relatva Frequênca acumulada Frequênca relatva acumulada 3 -- 4 3,5 4 0, 4 0, 4 -- 5 4,5 8 0, 0,3 3 5 -- 6 5,5 9 0,475 3 0,775 4 6 -- 7 6,5 6 0,5 37 0,95 5 7 -- 8 7,5 3 0,075 40 Total 40 - - Nesta organzação de dados temos perda de normação. Em um gráco de pontos não há perda de normação, mas se n or grande, pode haver perda de clareza. Densdade de reqüênca (ou densdade):. d r h Representação gráca: Hstograma Gráco de barras adjacentes com bases guas às ampltudes das classes e alturas guas às densdades. Obs. Se as classes tverem ampltude constante, as alturas das barras usualmente são guas às requencas. Propredade. Se utlzarmos densdades, soma das áreas dos retângulos, pos k k k r h h d r h Obs.. A ampltude das classes pode varar... Na construção de um hstograma, quanto maor or n, melhor. 4
Eemplo. Varável vscosdade. Escolha do número de classes (geralmente, 5 k 5). k3 k3 Densdade 0.0 0. 0.4 Densdade 0.0 0. 0. 0.3 7 8 9 0 3 X 7 8 9 0 X k7 k4 Densdade 0.00 0.0 0.0 0.30 6 7 8 9 0 X Densdade 0.00 0.0 0.0 6 8 0 4 X 5
Méda e varânca para varáves contínuas agrupadas em classes Méda: Varânca: * L k k * * + + n * ( ) n 3,5 4+ 4,5 8+ 5,5 9+ 6,5 6+ 7,5 3 * 40 4,6 s,067. 66 40 39 5,4. s,033 (desvo padrão). 40 Méda dos dados não agrupados (dados brutos) : + + L + 36 3,9 + 4,9 + L + 4, 6 5,39. 40 40 Este resultado dere do valor obtdo anterormente. Por quê? k Eemplo. Varável vscosdade (slde 47) s k n * 5 ( ) Gráco de caas (boplot) Representação dos dados por meo de um retângulo construído com os quarts. Fornece normação sobre a varabldade (d q Q 3 Q ) e valores etremos. 6
Eemplo. Varável vscosdade. º quartl (Q) 4,775. Em R: quantle(dados, 0.5) Medana (Md ou Q) 5,4. Em R: quantle(dados, 0.5) 3 º quartl (Q3) 5,9. Em R: quantle(dados, 0.75) d q ntervalo nterquartl Q3 Q,5. Lnhas aulares passam por Q,5d q 3,0875 e Q3 +,5d q 7,5875. Eemplo. Varável vscosdade medda em duas temperaturas. Temperatura (slde 47). 3.9 4.9 5.9 5.8 4.8 5. 5.8 5.0 5. 4.6 4.7 6.6 3.6 5.9 3. 5. 4.7 6.0 5.6 7.4 5.3 4. 5.9 5. 5.9 6. 6. 3.8 4.6 6.0 5.8 5.5 6.5 7. 5.3 5.5 7.8 5.4 5.4 4.6 Temperatura (n 40). 3.3 4.5 5.3 5.3 4.3 4.8 5. 4.5 4.6 4. 4.3 6. 3. 5.5.6 4.6 4.3 5.4 5. 6.8 4.9 3.7 5. 4.5 5.3 5.6 5.8 3.3 4. 5.4 5. 5. 5.9 6.5 4.8 5. 7.0 4.9 4.8 4.0 7
Boplot Redução de volume 0 0 40 60 80 00 0 A B C D E F G H Tpo de adtvo Análse eploratóra. Redução versus tpo. Varabldade. Smetra. Valores etremos. Gráco de lnha O Estado de S. Paulo, 8//00. 8
Assocação entre varáves quanttatvas (,y ),..., ( n,y n ): amostra bvarada. Representação gráca: gráco de dspersão (scatter plot) Medda de assocação: coecente de correlação lnear de Pearson. r n n ( Numerador: covarânca entre e y. Propredades: () r e s s )( y y y ) () r se, e somente se, a relação entre e y or lnear (y a + b, b 0 e o snal de r é o snal de b. Assocação entre varáves quanttatvas 9
Assocação entre varáves quanttatvas Assocação entre varáves quanttatvas 30
Assocação entre varáves quanttatvas Eemplo Eemplo Y 4 5 6 7 8 9 0 Y 3 4 5 6 7 8 9 Correlações: Eemplo : 0,864 Eemplo : 0,86 4 6 8 0 4 X 4 6 8 0 4 X Eemplo 3: 0,863 Eemplo 3 Eemplo 4 Eemplo 4: 0,865 Y 6 8 0 Y 6 8 0 4 6 8 0 4 8 0 4 6 8 X X Eemplo. Dados na slde7. > "Espessura" e "Resstênca" Resstênca 44 46 48 50 0 3 4 5 6 E s p e s s ura 3
Eemplo em R. Dados na slde 7. > Níves de Cola. > "Espessura e "Resstênca" Resstênca 44 46 48 50 3 4 0 3 4 5 6 E s p e s s ura 3