ANÁLISE EXPLORATÓRIA DE DADOS



Documentos relacionados
Introdução e Organização de Dados Estatísticos

Estatística stica Descritiva

TEORIA DE ERROS * ERRO é a diferença entre um valor obtido ao se medir uma grandeza e o valor real ou correto da mesma.

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Y X Baixo Alto Total Baixo 1 (0,025) 7 (0,175) 8 (0,20) Alto 19 (0,475) 13 (0,325) 32 (0,80) Total 20 (0,50) 20 (0,50) 40 (1,00)

TABELAS E GRÁFICOS PARA VARIÁVEIS ALEATÓRIAS QUANTITATIVAS CONTÍNUAS

NOTA II TABELAS E GRÁFICOS

Professor Mauricio Lutz CORRELAÇÃO

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

7 - Distribuição de Freqüências

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

IV - Descrição e Apresentação dos Dados. Prof. Herondino

Ministério da Educação. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Cálculo do Conceito Preliminar de Cursos de Graduação

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas

5.1 Seleção dos melhores regressores univariados (modelo de Índice de Difusão univariado)

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

Regressão e Correlação Linear

Introdução à Análise de Dados nas medidas de grandezas físicas

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Objetivos da aula. Essa aula objetiva fornecer algumas ferramentas descritivas úteis para

Caderno de Exercícios Resolvidos

PARTE Apresente as equações que descrevem o comportamento do preço de venda dos imóveis.

PROJEÇÕES POPULACIONAIS PARA OS MUNICÍPIOS E DISTRITOS DO CEARÁ

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

8 - Medidas Descritivas

Probabilidade e Estatística. Correlação e Regressão Linear

ESTATÍSTICA MULTIVARIADA 2º SEMESTRE 2010 / 11. EXERCÍCIOS PRÁTICOS - CADERNO 1 Revisões de Estatística


Nota Técnica Médias do ENEM 2009 por Escola

Variável discreta: X = número de divórcios por indivíduo

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Sistemas de Filas: Aula 5. Amedeo R. Odoni 22 de outubro de 2001

UNIVERSIDADE PRESBITERIANA MACKENZIE CCSA - Centro de Ciências Sociais e Aplicadas Curso de Economia

Análise Descritiva com Dados Agrupados

CONCEITOS INICIAIS DE ESTATÍSTICA MÓDULO 2 DISTRIBUIÇÃO DE FREQÜÊNCIA - ELEMENTOS Prof. Rogério Rodrigues

As tabelas resumem as informações obtidas da amostra ou da população. Essas tabelas podem ser construídas sem ou com perda de informações.

Apostila de Estatística Curso de Matemática. Volume II Probabilidades, Distribuição Binomial, Distribuição Normal. Prof. Dr. Celso Eduardo Tuna

Faculdade de Tecnologia de Catanduva CURSO SUPERIOR DE TECNOLOGIA EM AUTOMAÇÃO INDUSTRIAL

INE 7001 ESTATÍSTICA PARA ADMINISTRADORES I NOTAS DE AULA PROF. MARCELO MENEZES REIS MANOEL DE OLIVEIRA LINO

Covariância e Correlação Linear

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 3

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 1

x Ex: A tabela abaixo refere-se às notas finais de três turmas de estudantes. Calcular a média de cada turma:

CENTRO UNIVERSITÁRIO DO LESTE DE MINAS GERAIS - UnilesteMG

Aplicando o método de mínimos quadrados ordinários, você encontrou o seguinte resultado: 1,2

FAAP APRESENTAÇÃO (1)

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

7. Resolução Numérica de Equações Diferenciais Ordinárias

3ª AULA: ESTATÍSTICA DESCRITIVA Medidas Numéricas

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 2

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

CORRELAÇÃO E REGRESSÃO

4 Critérios para Avaliação dos Cenários

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 4

Rastreando Algoritmos

Elaboração: Fevereiro/2008

Escolha do Consumidor sob condições de Risco e de Incerteza

CAPÍTULO VI Introdução ao Método de Elementos Finitos (MEF)

Estatística Experimental Medicina Veterinária. Faculadade de Ciências Agrárias e Veterinárias. Campus de Jaboticabal SP. Gener Tadeu Pereira

1. Conceitos básicos de estatística descritiva. A ciência descobre relações de causa efeito entre fenómenos. Há fenómenos que são muito complexos

AULA 4. Segundo Quartil ( Q observações são menores que ele e 50% são maiores.

Cálculo do Conceito ENADE

3. Estatística descritiva bidimensional

CURSO de ESTATÍSTICA Gabarito

CURSO ON-LINE PROFESSOR: VÍTOR MENEZES

4.1. Medidas de Posição da amostra: média, mediana e moda

REGRESSÃO LOGÍSTICA. Seja Y uma variável aleatória dummy definida como:

Resumos Numéricos de Distribuições

UNIVERSIDADE DO ESTADO DA BAHIA - UNEB DEPARTAMENTO DE CIÊNCIAS EXATAS E DA TERRA COLEGIADO DO CURSO DE DESENHO INDUSTRIAL CAMPUS I - SALVADOR

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

Redução dos Dados. Júlio Osório. Medidas Características da Distribuição. Tendência Central (Localização) Variação (Dispersão) Forma

Controle Estatístico de Qualidade. Capítulo 8 (montgomery)

Probabilidade e Estatística I Antonio Roque Aula 4. Resumos Numéricos de Distribuições

Despacho Econômico de. Sistemas Termoelétricos e. Hidrotérmicos

Variabilidade Espacial do Teor de Água de um Argissolo sob Plantio Convencional de Feijão Irrigado

MEDIDAS DE TENDÊNCIA CENTRAL

3 A técnica de computação intensiva Bootstrap

Apostila De Estatística

1 a Lei de Kirchhoff ou Lei dos Nós: Num nó, a soma das intensidades de correntes que chegam é igual à soma das intensidades de correntes que saem.

Sistemas Robóticos. Sumário. Introdução. Introdução. Navegação. Introdução Onde estou? Para onde vou? Como vou lá chegar?

Medidas de Tendência Central. Prof.: Ademilson Teixeira

Capítulo 2 Estatística Descritiva Continuação. Prof. Fabrício Maciel Gomes

ESPELHOS E LENTES ESPELHOS PLANOS

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

Universidade Salvador UNIFACS Cursos de Engenharia Cálculo IV Profa: Ilka Rebouças Freire. Integrais Múltiplas

Metodologia IHFA - Índice de Hedge Funds ANBIMA

Fast Multiresolution Image Querying

CAPÍTULO 4 - Variáveis aleatórias e distribuições de probabilidade

CAPÍTULO 2 - Estatística Descritiva

ÍNDICE DE CONSISTÊNCIA TEMPORAL: UM NOVO MÉTODO PARA AVALIAÇÃO DA ESTABILIDADE TEMPORAL DE ARMAZENAMENTO DE ÁGUA NO SOLO

Associação de resistores em série

Universidade Federal da Bahia Instituto de Física Departamento de Física da Terra e do Meio Ambiente TEXTOS DE LABORATÓRIO T E O R I A D E E R R O S

Influência dos Procedimentos de Ensaios e Tratamento de Dados em Análise Probabilística de Estrutura de Contenção

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

UNIVERSIDADE DE PERNAMBUCO. Física Experimental. Prof o José Wilson Vieira

Sinais Luminosos 2- CONCEITOS BÁSICOS PARA DIMENSIONAMENTO DE SINAIS LUMINOSOS.

CÁLCULO DO ALUNO EQUIVALENTE PARA FINS DE ANÁLISE DE CUSTOS DE MANUTENÇÃO DAS IFES

Associação entre duas variáveis quantitativas

Economia Industrial. Prof. Marcelo Matos. Aula 7

Transcrição:

CENTRO DE CIÊNCIAS EXATAS CCE DEPARTAMENTO DE ESTATÍSTICA Curso de Especalzação Lato Sensu em Estatístca ANÁLISE EXPLORATÓRIA DE DADOS Professor: Dr. Waldr Medr medr@uel.br Londrna/Pr Março de 011

ÍNDICE ESTATÍSTICA... 1 1 INTRODUÇÃO... 1 ÁREAS DA ESTATÍSTICA....1 ESTATÍSTICA DESCRITIVA.... ESTATÍSTICA INFERENCIAL... 3 3 POPULAÇÃO E AMOSTRA... 4 3.1 POPULAÇÃO... 4 3. AMOSTRA... 4 4 VARIÁVEIS... 5 4.1 VARIÁVEIS QUALITATIVAS... 5 4. VARIÁVEIS QUANTITATIVAS... 5 5 DADOS... 9 5.1 DADOS BRUTOS... 9 5. ROL... 9 5.3 DISPOSITIVO - RAMO E FOLHAS... 10 5.4 REPRESENTAÇÃO TABULAR... 11 5.5 REPRESENTAÇÃO GRÁFICA... 13 5.5.1 Representação Gráfca para uma Varável Qualtatva... 13 5.5. Representação Gráfca para uma Varável Quanttatva... 16 5.5.3 Séres Conjugadas... 17 5.5.4 Dstrbução de Frequêncas... 19 5.6 LISTA 1 EXERCÍCIOS... 7 6 MEDIDAS ESTATÍSTICAS... 30 6.1 MEDIDAS TENDÊNCIA CENTRAL (POSIÇÃO)... 30 6.1.1 Méda... 30 6.1. Medana... 31 Conceto de resstênca de uma medda... 3 6.1.3 Moda... 3 6. MEDIDAS DE DISPERSÃO... 33 6..1 Ampltude... 33 6.. Desvo Médo... 34 6..3 Varânca... 34 6..4 Desvo Padrão... 35 6..5 Erro Padrão... 35 6..6 Coefcente de Varação... 35 6.3 SEPARATRIZES: QUARTIS, DECIS E PERCENTIS... 37 6.4 ASSIMETRIA... 39 6.5 CURTOSE... 40 6.6 BOX PLOT... 41 6.7 MEDIDAS DE POSIÇÃO E DISPERSÃO DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA... 45 6.7.1 Méda... 46 6.7. Medana... 46 6.7.3 Moda... 47 6.7.4 Separatrzes: Quarts, Decs e Percents... 47

6.7.5 Cálculo das Separatrzes Utlzando Proporções... 49 6.7.6 Desvo Médo... 50 6.7.7 Varânca... 50 6.7.8 Desvo Padrão... 50 6.7.9 Erro Padrão... 50 6.8 LISTA - EXERCÍCIOS... 51 7 TRANSFORMAÇÕES DE VARIÁVEIS... 53 7.1 MUDANÇA DE ORIGEM... 54 7. MUDANÇA DA UNIDADE... 55 8 ANÁLISE BIDIMENSIONAL... 56 8.1 INTRODUÇÃO... 56 8. VARIÁVEIS QUALITATIVAS... 57 8.3 ASSOCIAÇÃO ENTRE VARIÁVEIS QUALITATIVAS... 59 8.4 MEDIDAS DE ASSOCIAÇÃO ENTRE VARIÁVEIS QUALITATIVAS... 66 8.5 ASSOCIAÇÃO ENTRE VARIÁVEIS QUANTITATIVAS... 66 8.5.1 Coefcentes de assocação ou correlação... 67 8.6 ASSOCIAÇÃO ENTRE AS VARIÁVEIS QUALITATIVAS E QUANTITATIVAS... 71 8.7 LISTA 3 - EXERCÍCIOS... 76 REFERÊNCIAS BIBLIOGRAFIAS... 78

v

1 ESTATÍSTICA 1 INTRODUÇÃO Desde a Antgüdade város povos já regstravam o número de habtantes, de nascmento, de óbtos, fazam estmatvas das rquezas ndvdual e socal, dstrbuíam equtatvamente terras ao povo, cobravam mpostos e até realzavam nquértos quanttatvos por processos que, hoje, se chama de Estatístca. A palavra Estatístca vem de status, que sgnfca em latm Estado. Com essa palavra fazam-se as descrções e dados relatvos aos Estados, tornando a Estatístca um meo de admnstração para os governantes. Mas recentemente se passou a falar em estatístca em váras cêncas de todas as áreas do conhecmento humano, onde pode defnr a Estatístca como um conjunto de métodos e processos quanttatvos que servem para estudar e medr os fenômenos coletvos. Ao se estudar os fenômenos coletvos, o que nteressa são os fatos que envolvem os elementos desses fenômenos, como eles se relaconam e qual o seu comportamento. Para que tal estudo possa acontecer com toda a seredade que a cênca exge, é necessáro que o levantamento seja feto através de uma pesqusa centífca, sendo ela defnda como a realzação concreta de uma nvestgação planejada, desenvolvda e redgda de acordo com as normas de metodologa. A Estatístca é muto mas do que a smples construção de gráfcos e o cálculo de médas. As nformações numércas são obtdas com a fnaldade de acumular nformação para a tomada de decsão. Então, a estatístca pode ser vsta como um conjunto de técncas para planejar expermentos, obter dados e organzá-los, resumlos, analsá-los, nterpretá-los e deles extrar conclusões. A nformação de estatístca é apresentada constantemente no rádo e na televsão, como por exemplo, a coleta de dados sobre nascmentos e mortes, a avalação da efcênca de produtos comercas e a prevsão do tempo. As técncas clásscas da estatístca foram delneadas para serem as melhores possíves sob rgorosas suposções. Entretanto, a experênca tem forçado os estudosos a conhecer que as técncas clásscas comportam-se mal quando stuações prátcas não apresentam o deal descrto por tas suposções. O

desenvolvmento recente de métodos exploratóros robustos está aumentando a efcênca da análse estatístca. Os bons profssonas de estatístca têm sempre olhado com detalhes os dados antes de levantar suposções estatístcas e testes de hpóteses. Mas o uso ndscrmnado de pacotes estatístcos computaconas, sem o exame cudadoso dos dados profssonas da área, conduz, às vezes, a resultados aberrantes. A análse exploratóra de dados nos fornece um extenso repertóro de métodos para um estudo detalhado dos dados, antes de adaptá-los. Nessa abordagem, a fnaldade é obter dos dados a maor quantdade possível de nformação, que ndque modelos plausíves a serem utlzados numa fase posteror, a análse confrmatóra de dados ou nferênca estatístca. ÁREAS DA ESTATÍSTICA Se entender Estatístca como a Cênca dos Dados, será de grande vala o domíno que seu corpo de conhecmento pode oferecer. Prmeramente, como ponto de partda, pode-se dvdr a Estatístca em duas áreas: Descrtva Inferencal (Indutva) Obs. Alguns autores, como por exemplo, Marcos Nascmento Magalhães e Antono Carlos Pedroso de Lma, dzem que a estatístca, grosso modo, pode ser dvdda em três áreas: Estatístca descrtva; Probabldade e Inferênca estatístca..1 ESTATÍSTICA DESCRITIVA A Estatístca Descrtva se preocupa com a organzação, apresentação e sntetzação de dados. Utlzam gráfcos, tabelas e meddas descrtvas como ferramentas. Utlzada na etapa ncal da análse, destnada a obter nformações que ndcam possíves modelos a serem utlzados numa fase fnal que sera a chamada nferênca estatístca.

3. ESTATÍSTICA INFERENCIAL A Estatístca Inferencal postula um conjunto de técncas que permtem utlzar dados orundos de uma amostra para generalzações sobre a população. Consttu esse conjunto de técncas: a determnação do número de observações (tamanho da amostra); o esquema de seleção das undades observaconas; o cálculo das meddas estatístcas; a determnação da confança nas estmatvas; a sgnfcânca dos testes estatístcos; a precsão das estmatvas; dentre outras. Essa generalzação é feta a partr do processo de estmação das meddas estatístcas que podem ser calculadas, porém não sem antes se antecpar um grau de certeza de que a amostra esteja fornecendo os dados que seram de se esperar caso toda a população fosse estudada. Nesse caso, o ramo da matemátca que será utlzado para se avalar tal grau de certeza é a probabldade. Com ela teremos condções de mensurar a fdedgndade de cada nferênca feta com base na amostra. Antes de começar a estudar os métodos estatístcos que permtrá analsar dados, sejam eles qualtatvos ou quanttatvos, é mportante ntroduzr alguns concetos prelmnares a fm não apenas de dar nomes aos nstrumentos, mas também adequar e equalzar a termnologa a ser utlzada ao longo do curso. Na termnologa estatístca, o grande conjunto de dados que contém a característca que temos nteresse recebe o nome de população. Esse termo referese não somente a uma coleção de ndvíduos, mas também ao alvo sobre o qual resde nosso nteresse. Assm, nossa população pode ser tanto todos os habtantes de Londrna como todas as lâmpadas produzdas por uma fábrca em certo período de tempo. Algumas vezes podemos acessar toda a população para estudarmos característcas de nteresse, mas, em mutas stuações, tal procedmento não pode ser realzado. Em geral, razões econômcas são determnantes dessas stuações. Por exemplo, uma empresa, usualmente, não dspõe de verba sufcente para saber o que pensam todos os consumdores de seus produtos. Há anda razões étcas, quando, por exemplo, os expermentos de laboratóro que envolvem o uso de seres vvos. Além dsso, exstem casos em que a mpossbldade de se acessar toda a população de nteresse é ncontornável. Por exemplo, em um expermento para determnar o tempo de funconamento das lâmpadas produzdas por uma ndústra, não podemos observar toda a população de nteresse.

4 Tendo em vsta as dfculdades de váras naturezas para se observar todos os elementos da população, tomaremos alguns deles para formar um grupo a ser estudado. Este subconjunto da população, em geral com dmensão menor, é denomnado amostra. 3 POPULAÇÃO E AMOSTRA 3.1 POPULAÇÃO População é o conjunto consttuído por todos os ndvíduos que representam pelo menos uma característca comum, cujo comportamento nteressa analsar (nferr). Assm sendo, o objetvo das generalzações estatístcas está em dzer se algo acerca de dversas característcas da população estudada, com base em fatos conhecdos. 3. AMOSTRA Amostra pode ser defnda como um subconjunto, uma parte seleconada da totaldade de observações abrangdas pela população, através da qual se faz nferênca sobre as característcas da população. Uma amostra tem que ser representatva, a tomada de uma amostra bem como seu manuseo requer cudados especas para que os resultados não sejam dstorcdos. Parâmetro é uma medda numérca que descreve uma característca de uma população. São valores fxos, geralmente desconhecdos e usualmente representados por caracteres gregos. Por exemplo, µ (méda populaconal), p (proporção populaconal), σ (desvo-padrão populaconal), σ (varânca populaconal). Estatístca é uma estatístca numérca que descreve uma característca de uma amostra. Representada por caracteres latnos. Por exemplo, x (méda amostral), pˆ (proporção amostral), s (desvo-padrão amostral), s (varânca amostral). Undade Observável é a portadora da(s) característca(s), ou propredade(s), que se deseja nvestgar.

5 A seleção da amostra pode ser feta de váras maneras, dependendo, entre outros fatores, do grau de conhecmento que temos da população, da quantdade de recursos dsponíves a assm por dante. Cabe ressaltar que este tem será apresentado mas para frente. 4 VARIÁVEIS Ao se fazer um estudo estatístco de um determnado fato ou grupo, tem-se que consderar o tpo de varável. Pode ter varáves qualtatvas ou varáves quanttatvas. 4.1 VARIÁVEIS QUALITATIVAS Varáves qualtatvas são aquelas em que a varável assume valores em categoras, classes ou rótulos. São, portanto, por natureza, dados não numércos. Apesar de ser consderada de baxo nível de mensuração, do ponto de vsta da aplcação de nstrumental estatístco, a varável qualtatva oferece um vasto espectro de aplcação nas cêncas socas e do comportamento. Varáves qualtatvas denotam característcas ndvduas das undades sob análse, tas como sexo, estado cvl, naturaldade, raça, grau de nstrução, dentre outras, permtndo estratfcar as undades para serem analsadas de acordo com outras varáves. 4. VARIÁVEIS QUANTITATIVAS Varáves quanttatvas são aquelas expressas pelas varáves com níves de mensuração ntervalar ou de razão. Ou seja, são aqueles nas quas as varáves assumem valores numa escala métrca defnda por uma orgem e uma undade, por exemplo: dade, saláro, peso, etc. As varáves qualtatvas podem ser, também, classfcadas como nomnal e ordnal. Por outro lado, as varáves quanttatvas podem ser classfcadas como dscretas, quando assumem um número fnto de valores, ou contínuas, quando assume um número nfnto de valores, geralmente em ntervalos, como apresentam na Tabela 1.

6 Tabela 1: Classfcação das varáves qualtatvas e quanttatvas Varáves Tpos Descrção Exemplos Qualtatvas ou Categórcas Quanttatvas Nomnal Ordnal Dscretas Contínuas Não exste nenhuma ordenação Exste uma ordenação I, II, III Valor pertence a um conjunto enumerável Quando o valor pertence a um ntervalo real Cor dos olhos, sexo, estado cvl, tpo sangüíneo. Nível de escolardade, estágo da doença, colocação de concurso. Número de flhos por casal, quantdade de letos Meddas de altura e peso, taxa de glcose, nível de colesterol. Em algumas stuações podem-se atrbur valores numércos às váras qualdades ou atrbutos e depos proceder à análse como esta varável como se fosse quanttatva, desde que o procedmento seja passível de nterpretação. Uma vez obtdos os dados referentes às varáves qualtatvas, a tarefa segunte é representá-los através de uma tabela e de um gráfco. Posterormente, poderá ser útl calcular as frequêncas, smples, acumuladas e as relatvas. Para os dados quanttatvos, quando o número de observações cresce e os valores são dferencados entre s, há que se representá-los de modo resumdo. Para sso a melhor forma de representação tabular é através de dstrbuções de frequênca por classes de valores. Como exemplo: Suponha que um médco está nteressado em fazer um levantamento sobre algumas característcas de pacentes atenddos em sua clínca neurológca: sexo peso, tpo de tratamento, número de convulsões e classfcação da doença (leve, moderada e severa). Os dados podem ser organzados em uma tabela. Usualmente os ndvíduos são representados nas lnhas e as varáves nas colunas. Este formato é utlzado pela maora do programas computaconas. Note através da Tabela que cada ndvíduo é uma undade de observação na qual são fetas váras meddas e/ou anotados város atrbutos, referentes às varáves.

7 Tabela : Característcas de pacentes atenddos em uma clínca neurológca Pacente Sexo Peso Tpo de Tratamento N o de Convulsões Classfcação da Doença 1 M 89,8 A 1 Leve F 64, A 3 Severa 3 M 91,0 B Moderada 4 F 56,7 A 0 Moderada 5 F 48,5 B 1 Leve... 58 M 71,0 B 0 Severa 59 M 78,8 A Leve 60 F 71,0 B 3 Moderada Analse a tabela e classfque as varáves: Varáves qualtatvas nomnal: Sexo, Tpo de tratamento. Varáves qualtatvas ordnal: Classfcação da doença. Varáves quanttatvas dscreta: Número de convulsões Varáves quanttatvas contínua: Peso. Um outro exemplo: Um pesqusador está nteressado em fazer um levantamento sobre alguns aspectos socoeconômcos dos empregados da seção de orçamentos da Companha MB. Usando nformações obtdas do departamento pessoal, ele elaborou a Tabela 3. De modo geral, para cada elemento nvestgado numa pesqusa, tem-se assocado um (ou mas de um) resultado correspondendo à realzação de uma característca (ou característcas). Algumas varáves, como sexo, educação, estado cvl, apresentam como possíves realzações de qualdade (ou atrbuto) do ndvíduo pesqusado, ao passo que outras, como número de flhos, saláro, dade, apresentam como possíves realzações números resultantes de uma contagem ou mensuração. As varáves do prmero tpo são chamadas qualtatvas e as do segundo quanttatvas.

8 N o Tabela 3: Informações sobre estado cvl, grau de nstrução, número de flhos, saláro Estado Cvl mínmo, dade e procedênca de 36 empregados da seção de orçamentos da companha MB. Grau de Instrução N o de Flho s Saláro mínmo Idade Anos Meses Regão de Procedênca 1 Soltero Ensno fundamental 4,00 6 3 Interor Casado Ensno fundamental 1 4,56 3 10 Captal 3 Casado Ensno fundamental 5,5 36 5 Captal 4 Soltero Ensno médo 5,73 0 10 Outra 5 Soltero Ensno fundamental 6,6 40 7 Outra 6 Casado Ensno fundamental 0 6,66 8 0 Interor 7 Soltero Ensno fundamental 6,86 41 0 Interor 8 Soltero Ensno fundamental 7,39 43 4 Captal 9 Casado Ensno médo 1 7,44 34 10 Captal 10 Soltero Ensno médo 7,59 3 6 Outra 11 Casado Ensno médo 8,1 33 6 Interor 1 Soltero Ensno fundamental 8,46 7 11 Captal 13 Soltero Ensno médo 8,74 37 5 Outra 14 Casado Ensno fundamental 3 8,95 44 Outra 15 Casado Ensno médo 0 9,13 30 5 Interor 16 Soltero Ensno médo 9,35 38 8 Outra 17 Casado Ensno médo 1 9,77 31 7 Captal 18 Casado Ensno fundamental 9,80 39 7 Outra 19 Soltero Ensno superor 10,35 5 8 Interor 0 Soltero Ensno médo 10,76 37 4 Interor 1 Casado Ensno médo 1 11,06 30 9 Outra Soltero Ensno médo 11,59 34 Captal 3 Soltero Ensno fundamental 1,00 41 0 Outra 4 Casado Ensno superor 0 1,79 6 1 Outra 5 Casado Ensno médo 13,3 3 5 Interor 6 Casado Ensno médo 13,60 35 0 Outra 7 Soltero Ensno fundamental 13,85 46 7 Outra 8 Casado Ensno médo 0 14,69 9 8 Interor 9 Casado Ensno médo 5 14,71 40 6 Interor 30 Casado Ensno médo 15,99 35 10 Captal 31 Soltero Ensno superor 16, 31 5 Outra 3 Casado Ensno médo 1 16,61 36 4 Interor 33 Casado Ensno superor 3 17,6 43 7 Captal 34 Soltero Ensno superor 18,75 33 7 Captal 35 Casado Ensno médo 19,40 48 11 Captal 36 Casado Ensno superor 3 3,30 4 Interor Fonte: Dados hpotétcos

9 5 DADOS São as nformações nerentes às varáves que caracterzam os elementos que consttuem a população ou a amostra em estudo. Os dados obtdos em pesqusas devem ser analsados e nterpretados com o auxílo de métodos estatístcos. Na prmera etapa deve-se fazer uma análse descrtva que consste na organzação e descrção dos dados, na dentfcação de valores que representem o elemento típco e, na quantfcação da varabldade presente nos dados. 5.1 DADOS BRUTOS Qualquer pesqusa é baseada em levantamento ou coleta de dados. Os dados são obtdos dretamente da pesqusa, sem terem passados por nenhum processo de síntese ou análse. Por exemplo, os 50 valores, em decbés, de nível de ruído de tráfego em certo cruzamento estão apresentados a segur: 58,0 6,5 65,0 67,0 68,3 65,0 66,4 58,0 67,0 67,0 6,5 6,5 66,4 66,4 65,0 65,0 60, 60, 60, 60, 59,5 59,5 59,5 65,0 66,4 66,4 66,4 60, 6,5 67,0 67,0 67,0 70,1 70,1 71,9 70,1 67,0 66,4 66,4 68,3 68,3 68,3 65,0 65,0 6,5 6,5 65,0 65,0 68,3 71,9 Apesar de todos estes valores terem sdo obtdos em de nível de ruído de tráfego em certo cruzamento, nota-se uma grande varação nos resultados. Assm, os métodos estatístcos são fundamentas para o estudo de stuações em que a varabldade é nerente. A Estatístca Descrtva ajuda na percepção, avalação e quantfcação da varabldade em tabelas e gráfcos obtdos a partr de um conjunto de dados que sntetzem os valores, com o objetvo de se ter uma vsão global e clara da varação exstente nas varáves. 5. ROL A mão, ou com auxílo de computador, pode-se classfcar os dados x 1, x,...,x n em ordem crescente. Pode-se, pelo rol, verfcar de manera mas clara e rápda a composção do conjunto, dentfcando o maor e o menor valor além de alguns elementos que podem se repetr váras vezes, mostrando assm o comportamento dos dados.

10 5.3 DISPOSITIVO - RAMO E FOLHAS A mas comum estrutura de dados é um grupo de números. Até mesmo esta tão smples estrutura de dados pode ter característcas não faclmente dstnguíves por estudos dos números. O dspostvo ramo e folhas é uma técnca flexível e efcaz para começarmos a olhar um conjunto ou uma amostra de dados. Os dígtos mas sgnfcantes dos valores, por s própros, fazem muto trabalho de ordenação do grupo. Está técnca básca, mas versátl, é ntensamente usada, prncpalmente para comparar grupos e examnar cada característca, tas como: quanto o grupo está próxma da assmetra; como estão dstrbuídos os valores; se alguns valores estão dstancados dos demas; se exste concentração de dados; se exste lacunas nos dados. Aplcação do dspostvo ramo e folhas. Não exste uma regra fxa para construr o ramo e folhas, mas a déa básca é dvdr cada observação em duas partes: a prmera (o ramo) é colocada à esquerda de uma lnha vertcal, a segunda (a folha) é colocada à dreta. A Fgura 1 apresenta um dessa aplcação. Ramo Folha Frequênca 58 59 60 6 65 66 67 68 70 71 0 0 5 5 5 5 5 5 5 5 5 0 0 0 0 0 0 0 0 0 4 4 4 4 4 4 4 4 0 0 0 0 0 0 0 3 3 3 3 3 1 1 1 9 9 3 5 6 9 8 7 5 3 Fgura 1 - Ramos e folhas para os depóstos bancáros Assm, o Rol dos 50 valores do nível de ruído de tráfego em certo cruzamento, faca:

11 58,0 58,0 59,5 59,5 59,5 60, 60, 60, 60, 60, 6,5 6,5 6,5 6,5 6,5 6,5 65,0 65,0 65,0 65,0 65,0 65,0 65,0 65,0 65,0 66,4 66,4 66,4 66,4 66,4 66,4 66,4 66,4 67,0 67,0 67,0 67,0 67,0 67,0 67,0 68,3 68,3 68,3 68,3 68,3 70,1 70,1 70,1 71,9 71,9 A apresentação dos dados pode ser de duas formas: Apresentação Tabular e apresentação Gráfca. 5.4 REPRESENTAÇÃO TABULAR Apresentação tabular numérca de dados é a representação das nformações por ntermédo de uma tabela. Uma tabela é uma manera bastante efcente de mostrar os dados levantados e que faclta a compreensão e nterpretação dos dados. Para organzar uma sére estatístca ou uma dstrbução de frequêncas, exstem algumas normas naconas dtadas pela Assocação Braslera de Normas Técncas (ABNT) as quas devem ser respetadas. Assm, toda tabela estatístca de conter: a) Elementos essencas Título ndca a natureza do fato estudado (o quê?), as varáves escolhdas na análse do fato (como?), o local (onde?) e a época (quando?). Corpo é o conjunto de lnhas e colunas que contém, respectvamente, as séres horzontas e vertcas de nformações. Cabeçalho desgna a natureza do conteúdo de cada coluna. Coluna ndcadora mostra a natureza do conteúdo de cada lnha. b) Elementos complementares (se necessáro) Fonte é o ndcatvo, no rodapé da tabela, da entdade responsável pela sua organzação ou fornecedora dos dados prmáros. Notas são colocadas no rodapé da tabela para esclarecmentos de ordem geral. c) Snas convenconas (hífen), quando o valor numérco é nulo;... (retcênca), quando não se dspõe de dado;

1? (ponto de nterrogação), quando há dúvdas quanto à exatdão do valor numérco; 0; 0,0; 0,00 (zero), quando o valor numérco é muto pequeno para ser expresso pela undade utlzada, respetando o número de casas decmas adotado; X (letra x), quando o dado for omtdo. d) Numerar as tabelas quando houver mas de uma. e) As tabelas devem ser fechadas acma e abaxo por lnha horzontal, não sendo fechadas à dreta e à esquerda por lnhas vertcas. É facultatvo o emprego de traços vertcas para separação de colunas no corpo da tabela. f) Os totas e subtotas devem ser destacados. g) Manter a unformdade do número de casas decmas. As tabelas podem ser classfcadas como undmensonal ou bdmensonal. A Tabela 4 é uma representação undmensonal, enquanto a Tabela 5 é bdmensonal. Tabela 4: Número e porcentagem de causas de morte de resdentes de Londrna, no período de 10 de agosto a 31 de dezembro de 008 CAUSAS DA MORTE N O % Doenças do ap. crculatóro 81 33,5 Neoplasas 115 13,7 Causas externas 9 11,0 Doenças do ap. respratóro 87 10,4 Doenças das glând. endóc./transt. Imuntáros 56 6,7 Doenças do ap. dgestvo 54 6,4 Doenças e nfec. e parastáras 46 5,5 Afecções do per. Pernatal 6 3,1 Demas grupos 8 9,8 TOTAL 839 100,0 FONTE: Núcleo de nformação em mortaldade PML

13 Tabela 5: Percentual de vendas do produto A, da Empresa WD, no mês de março de 008 FAIXA ETÁRIA REGIÃO < 1 ano 1 a 4 anos 5 a 19 anos 0 a 49 anos 50 anos ou + Centro 4,54 -,0 14,65 78,79 Norte 6,45 1,61,4 6,61 6,91 Sul 7,7 4,55 5,45,73 60,00 Leste 3,36-4,03 4,16 68,45 Oeste 4,57 1,14 3,43 18,9 7,57 Rural 15,71 4,9 4,8 14,9 61,43 LONDRINA 5,83 1,4 3,37 0,61 68,77 FONTE: Relatóro do mês de março do Departamento de vendas. 5.5 REPRESENTAÇÃO GRÁFICA A representação gráfca é usada para aumentar a legbldade do resultado de uma pesqusa. Os gráfcos devem ser auto-explcatvos e de fácl compreensão. Devem sempre ter um título, onde se destaca o fato, o local e o tempo. Ser construídos em uma escala que não desfgure os fatos ou as relações que se deseja destacar. Assm, a altura de um gráfco deve compreender entre 60% a 80% da largura. 5.5.1 Representação Gráfca para uma Varável Qualtatva Para esse tpo de varável os gráfcos mas utlzados são os de: colunas, barras, lnhas e de setores. Tabela 6: Densdade demográfca, segundo as Grandes Regões - 008 Brasl e Grandes Regões Densdade demográfca (hab/km ) Brasl Norte Nordeste Sudeste Sul Centro Oeste,3 4,0 34,4 86,3 47,8 8,6 Fonte: IBGE, Pesqusa Naconal por Amostra de Domcílo 008

14 No Brasl a densdade demográfca méda, em 008, é de,3 hab/km. Regão Norte, que possu 45,% da área total do País e 8,1% da população, tem apenas 4,0 hab/km Nessa regão, anda exstem grandes vazos espacas, em função da vastdão terrtoral e de grandes áreas ntocadas, como a ocupada pela floresta Amazônca. A Regão Sudeste, a mas evoluída economcamente do País, com 4% da população total, é a que tem a maor densdade com 86,3 hab/km A Regão Metropoltana de São Paulo, com 19,5 mlhões de pessoas, corresponde a 47,9% da população do estado, enquanto a Regão Metropoltana do Ro de Janero, com 11,5 mlhões de pessoas, contém 73,4% dos habtantes do Ro de Janero (Tabela 6). a) Gráfco de Colunas Os gráfcos de colunas (Fgura ) ou barras (Fgura 3) consstem em construr retângulos, em que uma das dmensões é proporcona à magntude a ser representada, sendo a outra arbtrára, porém gual para todas as colunas (ou barras). Essas colunas (ou barras) são dspostas paralelamente umas às outras, vertcalmente (ou horzontalmente), sto é: Densdade demográfca (hab/km) 100 80 60 40 0 0,3 4,0 34,4 86,3 47,8 Brasl Norte Nordeste Sudeste Sul Centro Oeste Brasl e Grandes Regões 8,6 Fgura Densdade demográfca, Brasl e as Grandes Regões - 008

15 b) Gráfco de Barras Centro Oeste 8,6 Brasl e Grandes Regões Sul Sudeste Nordeste Norte 4,0 34,4 47,8 86,3 Brasl,3 0 0 40 60 80 100 Densdade demográfca (hab/km) Fgura 3 Densdade demográfca, Brasl e as Grandes Regões - 008 c) Gráfco de Lnhas (Fgura 4) Densdade demográfca (hab/km) 100 80 60 40 0 0,3 4,0 34,4 86,3 47,8 Brasl Norte Nordeste Sudeste Sul Centro Oeste Brasl e Grandes Regões 8,6 Fgura 4 Densdade demográfca, Brasl e as Grandes Regões, 008 Obs. O gráfco de lnha acma não é adequado para o exemplo d) Gráfco de Setores O gráfco de setores (Fgura 5) destna-se representar a composção, usualmente em porcentagem, de partes de um todo. Consste num círculo de rao arbtráro, representando o todo, dvdndo em setores, que correspondem às partes de manera proporconal.

16 CO-8,6 S-47,8 SU-86,3 B-,3 N-4,0 NE-34,4 Brasl Norte Nordeste Sudeste Sul Centro Oeste Fgura 5 Densdade demográfca, Brasl e as Grandes Regões - 008 5.5. Representação Gráfca para uma Varável Quanttatva Gráfcos referentes a varáves quanttatvas (dscretas ou contínuas) mas utlzados são os de: colunas (Fgura 6) e barras (Fgura 7). Tabela 7: As taxas mensas, em porcentagem, da Poupança, no período de janero a dezembro de 005 Meses Taxa (%) Janero Feverero Março Abrl Mao Junho Julho Agosto Setembro Outubro Novembro Dezembro Fonte: Caxa Econômca Federal 0,715 0,69 0,675 0,734 0,737 0,739 0,774 0,808 0,771 0,733 0,711 0,714

17 a) Gráfco de colunas 0,85 0,80 Taxa (%) 0,75 0,70 0,65 0,60 Jan Fev Mar Abr Ma Jun Jul Ago Set Out Nov Dez Meses Fgura 6 Taxa de juros em porcentagem da caderneta de Poupança de janero a dezembro de 005 c) Gráfco de lnhas Taxas (%) 0,85 0,80 0,75 0,70 0,65 0,715 0,69 0,675 0,734 0,737 0,739 0,774 0,808 0,771 0,733 0,711 0,714 0,60 Jan Fev Mar Abr Ma Jun Jul Ago Set Out Nov Dez Meses Fgura 7 Taxa de juros em porcentagem da caderneta de Poupança de janero a dezembro de 005 5.5.3 Séres Conjugadas Mutas vezes tem-se a necessdade de apresentar, em uma únca tabela, a varação de valores de mas de uma varável, sto é, fazer uma conjunção de duas ou mas séres. Conjugando duas séres em uma únca tabela, obtém-se uma tabela de dupla entrada (horzontal e vertcal). A Tabela 8 apresenta a méda de anos de estudo, no Brasl e nas Regões: Sudeste e Nordeste, no período de 00 a 008

18 Tabela 8: Méda de anos de estudo, no Brasl e nas Regões, Sudeste e Nordeste, no período de 00 a 008 Brasl e Regões Anos 00 003 004 005 006 007 008 Sudeste 7, 7,4 7,6 7,7 7,9 7,9 8,1 Brasl 6,5 6,7 6,8 7,0 7, 7,3 7,4 Nordeste 5,1 5,3 5,5 5,6 5,8 6,0 6, Fonte: IBGE, Pesqusa Naconal por Amostra de Domcílo 008 A educação básca no País é formada por dos cclos fundamental e médo que correspondem a 11 anos de estudo completos. Os dados sobre os níves de escolarzação da população revelam melhoras, se comparados àqueles da década anteror, porém são anda nsufcentes e não compatíves com o nível de desenvolvmento econômco do País. Basta observar a escolardade méda da população. Em 008, o braslero de 15 anos ou mas de dade tnha, em méda, 7,4 anos de estudo. Na Regão Sudeste, essa méda atngu 8,1 anos, enquanto na Regão Nordeste apenas 6, anos. Os com os gráfcos, de lnhas (fgura 8) e de colunas múltplas (fgura 9) mostram esta stuação. a) Gráfco de Lnhas (Fgura 8) 9 Médas de estudos (anos) 7 5 7, 6,5 5,1 7,4 7,6 7,7 6,7 6,8 7,0 5,3 5,5 5,6 7,9 7,9 8,1 7, 7,3 7,4 6, 6,0 5,8 3 00 003 004 005 006 007 008 Sudeste Brasl Nordeste Fgura 8 Médas de estudo no Brasl e nas Regões: Sudeste e Nordeste, no período de 00 a 008

19 b) Gráfco de Colunas Múltplas (Fgura 9) 9 Médas de estudos (anos) 7 5 SU B NE SU B NE SU B NE SU B NE SU B NE SU B NE SU B NE 3 00 003 004 005 006 007 008 Sudeste Brasl Nordeste Fgura 9 Médas de estudo no Brasl e nas Regões: Sudeste e Nordeste, no período de 00 a 008 O gráfco de colunas múltplas é útl quando se quer fazer estudo comparatvo. 5.5.4 Dstrbução de Frequêncas Quando se estuda uma varável, o maor nteresse do pesqusador é conhecer o comportamento dessa varável, analsando a ocorrênca de suas possíves realzações. Consderando-se a varável qualtatva a ser estudada, como por exemplo, grau de nstrução (Tabela 3), será observada e estudada muto mas faclmente quando se dspõem os ensnos: Fundamental, Médo e Superor em uma coluna e coloca-se, ao lado de cada ensno, o número de vezes que aparece repetdo. Assm, a Tabela 9 apresenta a dstrbução de frequêncas da varável grau de nstrução. Tabela 9: Frequêncas e porcentagens dos 36 empregados da seção de orçamentos da Companha MB segundo o grau de nstrução Grau de Instrução Frequênca (n ) Proporção (f ) Porcentagem (%) Fundamental Médo Superor 1 18 6 0,3333 0,5000 0,1667 33,33 50,00 16,67 Total 36 1,0000 100,00

0 Fonte: Tabela 3 Através da Tabela 9 da segunda coluna, nota-se que dos 36 empregados da Companha MB, 1 têm o ensno fundamental, 18 o ensno médo e 6 possu curso superor. Uma medda bastante útl na nterpretação de tabelas de frequêncas é a proporção (ou a porcentagem) de cada realzação em relação ao total. Assm 6/36 = 0,1667 (16,67%) dos empregados da Companha MB (seção de orçamento) têm nstrução superor. As proporções são muto útes quando se quer comparar resultados de duas pesqusas dstntas. Por exemplo, suponha-se que se quera comparar a varável grau de nstrução para os empregados da seção de orçamentos com a mesma varável para todos os empregados da Companha MB. Supondo que a empresa tenha.000 empregados e que a dstrbução de frequêncas seja a Tabela 10. Tabela 10: Frequêncas e porcentagens dos.000 empregados da Companha MB segundo o grau de nstrução Grau de Instrução Frequênca (n ) Proporção (f ) Porcentagem (%) Fundamental Médo Superor 650 1.00 330 0,350 0,5100 0,1650 3,50 51,00 16,50 Total.000 1,0000 100,00 Fonte: dados hpotétcos Importante: Não pode comparar dretamente as colunas das frequêncas das Tabelas 9 e 10, pos os totas de empregados são dferentes nos dos casos. Mas as colunas das porcentagens são comparáves, já que as frequêncas foram reduzdas a um mesmo total. (no caso 100). Gráfcos para varáves qualtatvas O gráfco de colunas múltplas (Fgura 10) segundo a varável qualtatva, grau de nstrução das Tabelas 9 e 10, fca:

1 60 50 porcentagem (%) 40 30 0 10 Orçamento Companha 0 Fundamental Médo Superor Grau de nstrução Fgura 10 Grau de nstrução dos funconáros da Seção de Orçamento e da Companha MB Já o gráfco de lnhas (Fgura 11) referente a varável, grau de nstrução das Tabelas 9 e 10, fca: 60 50 porcentagem (%) 40 30 0 10 Orçamento Companha 0 Fundamental Médo Superor Grau de nstrução Fgura 11 Grau de nstrução dos funconáros da Seção de Orçamento e da Companha MB Gráfcos para varáves quanttatvas Consderando-se, agora, a varável quanttatva dscreta a ser estudada, número de flhos dos empregados casados da seção de orçamentos da Companha MB (Tabela 3). A Tabela 11 apresenta a dstrbução de frequêncas e as porcentagens desta varável.

Tabela 11: Frequêncas e porcentagens dos empregados da seção de orçamentos da Companha MB, segundo o número de flhos N o de Flhos Frequênca (n ) Porcentagem (%) 0 1 3 5 4 5 7 3 1 0 5 35 15 5 Total 0 100 Fonte: Tabela 3 O gráfco de colunas (Fgura 1) da varável quanttatva do número de flhos dos empregados casados da seção de orçamentos da Companha MB da Tabela 11, é representado da segunte forma: 8 6 Frequênca 4 0 0 1 3 5 Número de flhos Fgura 1 Número de flhos dos empregados dos casados da seção de orçamento da Companha A construção de tabelas de frequêncas para varáves contínuas necessta de certo cudado. Por exemplo, a construção da tabela de frequêncas para a varável saláro (Tabela 3) usando o mesmo procedmento anteror, não resumrá as 36 observações num grupo menor, pos não exstem observações guas. A solução empregada é agrupar os dados por faxas de saláro. A Tabela 1 dá a dstrbução de frequêncas dos saláros dos 36 empregados da seção de orçamentos da Companha MB por faxa de saláros.

3 Tabela 1: Frequêncas e porcentagens dos 36 empregados da seção de orçamentos da Companha MB por faxa de saláro Classe de Saláros Frequênca (n ) Porcentagem (%) 4,00 --- 8,00 8,00 --- 1,00 1,00 --- 16,00 16,00 --- 0,00 0,00 --- 4,00 10 1 8 5 1 7,78 33,33, 13,89,78 Total 36 100,00 Fonte: Tabela 3 Procedendo-se desse modo, ao resumr os dados referentes a uma varável contínua, perde-se alguma nformação. Por exemplo, não se sabe quas são os oto saláros da classe de 1 a 16, a não ser que se nvestga a tabela orgnal (tabela 3). Sem perda de muta precsão, pode-se supor que todos os oto saláros daquela classe fossem guas ao ponto médo da referda classe, sto é, 14. A dstrbução de frequêncas é mportante quando exste uma grande quantdade de dados. A fnaldade em agrupar os dados é facltar a vsualzação e também os cálculos deles, porém, a determnação das meddas de posção e de dspersão para uma varável quanttatva contínua, através de sua dstrbução de frequêncas, exge aproxmações, já que perde a nformação dos valores observados. Não há um modo únco par se construr uma tabela de frequênca por classe de valores. A escolha dos ntervalos é arbtrára e a famlardade do pesqusador com os dados é que lhe ndcará quantas classes (ntervalos) devem ser usadas. Entretanto, deve-se observar que, com um pequeno número de classes, perde-se nformação, e com um número grande de classes, o objetvo de resumr os dados fca prejudcado. Estes dos extremos têm a ver, também, com o grau de suavdade da representação gráfca dos dados. Normalmente, sugere-se o uso de 5 a 15 classes com a mesma ampltude. As classes não precsam ter ampltude constante, mas por uma questão de smplfcação da construção da representação gráfca, geralmente são classes com

4 ntervalos constantes. Por outro lado, exstem técncas para construção de tabelas de dstrbução de frequêncas para ntervalos contínuos (dados agrupados). Etapas para a construção de tabelas de frequênca para dados agrupados: 1) O cálculo da ampltude total dos dados é a dferença entre o maor e o menor valor da sére, sto é: At = n o do maor n o do menor ) Não exstndo um crtéro rígdo para estabelecer o número deal de ntervalos, sugere-se que não se utlze menos de 5 e não mas de 15 ntervalos. A experênca tem demonstrado que se pode fxar o número de ntervalo como: K = n ou K = 1+ 3,3.log n, para uma amostra de tamanho n 3) O ntervalo das classes (ampltude de classes) pode ser feto dvdndo-se a ampltude total pelo número de classes, sto é: a C = At K Assm, pode construr os ntervalos partndo do menor valor do conjunto e somando a ampltude calculada (a C ), o que permte determnar os lmtes dos ntervalos. Aplcação: A Tabela 13 apresenta uma dstrbução de frequênca usando as técncas de construção dos 50 valores, em decbés, de nível de ruído de tráfego em certo cruzamento estão apresentados a segur: Cálculo: At = X max X mn = 71,9 58,0 = 13,9 k = n = 50 7 a C = K At 13,9 = = 7

5 Tabela 13: Nível de ruído, em decbés, de tráfego em certo cruzamento Nível de ruído (em db) Quantdade ( f ) Ponto médo ( x ) Freq. Acum. ( F ac ) ( f x. ) ( x. f ) 58,0 -- 60,0 5 59 5 95 17.405 60,0 -- 6,0 5 61 10 305 18.605 6,0 -- 64,0 6 63 16 378 3.814 64,0 -- 66,0 9 65 5 585 38.05 66,0 -- 68,0 15 67 40 1.005 67.335 68,0 -- 70,0 5 69 45 345 3.805 70,0 -- 7,0 5 71 50 355 5.05 Total 50 3.68 14.194 Os resultados referentes a varáves contínuas frequentemente são organzados em tabelas de dstrbuções de frequêncas por ntervalos. Três tpos de gráfcos geralmente são utlzados neste caso: hstograma, polígono de frequênca e ogvas. a) Hstograma (Fgura 13) é a representação gráfca de uma dstrbução de frequênca por meo de retângulos justapostos, contendo as classes de valores na abscssa e as frequêncas, absolutas ou relatvas, nas ordenadas, centradas nos pontos médos. 16 15 14 1 Quantdade 10 8 6 5 5 6 9 5 5 4 0 58 --60 60 --6 6 --64 64 --66 66 --68 68 --70 70 --7 Nível de ruído (db) Fgura 13 Nível de ruído (db) em certo cruzamento Através da fgura, pode-se dzer que 10 níves de ruído foram nferores a 6 decbés, ou 5 níves de ruído foram guas ou superores a 70 decbés.

6 b) Polígono de frequêncas (Fgura 14) é a representação gráfca de uma dstrbução de frequênca, contendo os pontos médos de cada classe na abscssa e as frequêncas, absolutas ou relatvas, nas ordenadas. 16 15 1 Frequênca 8 4 5 5 6 9 5 5 0 0 0 55 57 59 61 63 65 67 69 71 73 75 Nível de ruído (db) Fgura 14 Nível de ruído (db) em certo cruzamento O gráfco de uma dstrbução cumulatvo é chamado de ogva (Fgura 15). Os valores dos dados são mostrados no exo horzontal e as frequêncas cumulatvas são apresentadas no exo vertcal. 60 Frequênca 50 40 30 0 16 10 10 5 0 0 50 45 40 5 55 57 59 61 63 65 67 69 71 73 x Nível de ruído (db) Fgura 15 Nível de ruído (db) acumulado em certo cruzamento As frequêncas nesse exemplo foram acumuladas de modo crescente. Há casos, no entanto, que a acumulação das frequêncas é feta de modo decrescente. Este gráfco pose ser usado para fornecer nformações adconas. Por exemplo, para saber qual o nível de ruído x tal que 30 das quantdades (frequêncas) atngem menos do que x, basta procurar o ponto (x, 30) na curva. Observando as lnhas pontlhadas no gráfco, nota-se que a solução é aproxmadamente 67 decbés.

7 5.6 LISTA 1 EXERCÍCIOS 1) Ao nascer, os bebês são pesados e meddos, para se saber se estão dentro das tabelas de peso e altura esperados. Estas duas varáves são: a) qualtatvas b) ambas dscretas c) ambas contínuas d) contínua e dscreta, respectvamente e) dscreta e contínua, respectvamente ) A dstrbução abaxo ndca o número de acdentes ocorrdos em uma empresa com 70 funconáros. (dados fctícos). N o de acdentes 0 1 3 4 5 6 7 N o de funconáros 0 10 16 9 6 5 3 1 Determne: a) o número de funconáros que não sofreram acdente; b) o número de funconáros que sofreram pelo menos 4 acdentes; c) o número de funconáros que sofreram 1 < acdentes 4; d) o número de funconáros que sofreram no mínmo 3 e no máxmo 5 acdentes; e) a porcentagem dos funconáros que sofreram no mínmo 5 acdentes; f) a porcentagem dos funconáros que sofreram entre e 4 acdentes; g) gráfcos de colunas e de barras. 3) Os depóstos bancáros da Empresa AKI-SE-TRABALHA, em mlhares de Reas, Fev/Mar, 005: 3,7 1,6,5 3,0 3,9 1,9 3,8 1,5 1,1 1,8 1,4,7,1 3,3 3,,3,3,4 0,8 3,1 1,8 1,0,0,0,9 3, 1,9 1,6,9,0 1,0,7 3,0 1,3 1,5 4,,4,1 1,3,7,1,8 1,9 a) Ordenar os dados pelo dspostvo ramo e folhas. (também pelo computador). b) Construa a dstrbução de frequêncas usando as técncas de construção. c) Faça o hstograma, o polígono de frequênca e a ogva do tem b.

8 4) Se os saláros dos professores do Estado aumentam em 0% em dado período, enquanto o Índce de Preços aumenta em 10%, então, o aumento real de saláro, durante o período, fo: a) de 10% b) maor que 10% c) menor que 10% d) nulo 5) Substtur por uma tabela o trecho do relatóro segunte retrado do IBGE - Estatístcas de Regstro Cvl 004. No Brasl, a porcentagem de óbtos volentos para ndvíduos do sexo masculno entre 000 e 003, nas Regões; Norte, Nordeste, Sudeste, Sul e Centro Oeste são: 000 Norte 17,4%, Nordeste 13,4%, Sudeste 17,3%, Sul 13,6% e Centro-Oeste 19,6%; 001 Norte 17,6%, Nordeste 13,5%, Sudeste 17,4%, Sul 14,6% e Centro-Oeste 19,4%; 00 Norte 17,5%, Nordeste 13,4%, Sudeste 17,5%, Sul 13,5% e Centro-Oeste 19,5%; 003 Norte 15,8%, Nordeste 13,6%, Sudeste 17,0%, Sul 13,3% e Centro-Oeste: 19,7%. Construr também o gráfco de colunas. 6) Substtur por uma tabela o trecho do relatóro segunte retrado do IBGE - Estatístcas de Regstro Cvl 004. No Brasl, a porcentagem de óbtos volentos para ndvíduos do sexo masculno é quase 4 vezes superor à do sexo femnno. Baseado em dados exstentes entre 000 e 003, a stuação no Norte, Nordeste, Sudeste, Sul e Centro Oeste é a segunte: 000 Norte: 17,4% masculno e 5,8% femnno; Nordeste: 13,4% masculno e 3,8% femnno; Sudeste: 17,3% masculno e 4,4% femnno; Sul: 13,6% masculno e 4,4% femnno e Centro- Oeste: 19,6% masculno e 6,5% femnno; 001 Norte: 17,6% masculno e 5,9% femnno; Nordeste: 13,5% masculno e 3,8% femnno; Sudeste: 17,4% masculno e 4,3% femnno; Sul: 14,6% masculno e 5,1% femnno e Centro- Oeste: 19,4% masculno e 6,4% femnno; 00 Norte: 17,5% masculno e 5,8% femnno; Nordeste: 13,4% masculno e 3,7% femnno; Sudeste: 17,5% masculno e 4,% femnno; Sul: 13,5% masculno e 5,7% femnno e Centro- Oeste: 19,5% masculno e 6,3% femnno; 003 Norte: 15,8% masculno e 4,7% femnno; Nordeste: 13,6% masculno e 3,4% femnno; Sudeste: 17,0% masculno e 4,3% femnno; Sul: 13,3% masculno e 3,6% femnno e Centro- Oeste: 19,7% masculno e 6,0% femnno.

9 7) Um professor preencheu uma tabela, envado pelo Departamento de Educação, com os seguntes dados: Sére e Turma 1 o B 1 o C 1 o E 1 o F N o de alunos 30/03 49 49 47 47 N o de alunos 30/11 44 4 35 40 Promovdos sem recupe reção 35 4 7 33 Retdos sem Recupe ração 03 00 00 06 Em recupe ração 06 00 08 01 Recupe rados 05 00 03 00 Não Recupe rados 01 00 05 01 Total Geral Promo vdos Total 19 161 137 09 15 08 07 145 16 Pede-se: 40 4 30 33 a) a taxa de evasão, por classe; b) a taxa de evasão total; c) a taxa de aprovação, por classe; d) a taxa de aprovação geral; e) a taxa de recuperação, por classe; f) a taxa de recuperação geral; g) a taxa de reprovação na recuperação geral; h) a taxa de aprovação, sem a recuperação; ) a taxa de retdos, sem a recuperação. Ret dos 04 00 05 07 8) A tabela abaxo apresenta uma dstrbução de frequênca das áreas de 400 lotes: Áreas (m ) 300 -- 400 --500 -- 600 -- 700 --800 --900 -- 1.000 -- 1.100 -- 1.00 N o de Lotes 14 46 58 76 68 6 48 6 Determne: a) o lmte nferor da qunta classe b) o ponto médo da sétma classe c) a ampltude do ntervalo da sexta classe d) a frequênca da quarta classe e) a frequênca relatva da sexta classe f) a freq. acumulada da qunta classe g) o número de lotes cuja área não atnge 700 m. h) o número de lotes gual ou maor a 800 m. ) a porcentagem dos lotes cuja área não atnge 600 m. j) a porcentagem dos lotes cuja área é de 500 m, no mínmo, mas nferor a 1.000 m.

30 6 MEDIDAS ESTATÍSTICAS Além da construção de tabelas e gráfcos, a análse exploratóra de dados, consste também de cálculos de meddas estatístcas que resumem as nformações obtdas dando uma vsão global dos dados. Essas meddas, também conhecdas como meddas descrtvas, recebem o nome genérco de estatístcas quando calculada com os dados da amostra, e de parâmetros quando calculadas com dados populaconas. Dentre as meddas estatístcas as mas utlzadas são as de tendênca central (ou de posção) e as de dspersão (ou de varabldade). Destacam-se, anda, as separatrzes, as assmetras e os box plot. 6.1 MEDIDAS TENDÊNCIA CENTRAL (POSIÇÃO) As meddas de tendênca central são aquelas que produzem um valor em torno do qual os dados observados se dstrbuem, e que vsam sntetzar em um únco número o conjunto de dados. As meddas de tendênca central são: méda artmétca, medana e moda. 6.1.1 Méda Uma das meddas estatístcas mas utlzadas na representação de uma dstrbução de dados é a méda artmétca, na sua forma smples, ou ponderada. No prmero caso dvde-se a soma de todos os valores da sére pelo número de observações, enquanto no segundo, mas utlzado em dstrbuções de frequêncas, os valores são ponderados pelas frequêncas com que ocorrem e depos dvdem-se pelo total das frequêncas (este segundo caso será vsto em dstrbução de frequêncas): Smples: X n x x x x 1 + +... + Σ n = 1 = = ou smplesmente n n X = n x Exemplo: Foram levantados os dâmetros de 10 peças (cm) da Empresa AA Ltda. As meddas foram as seguntes: 13,1 13,5 13,9 13,3 13,7 13,1 13,1 13,7 13, 13,5. Portanto, dâmetro médo é 13,41 cm.

31 A méda artmétca possu algumas propredades desejáves e não desejáves e são as seguntes:. Uncdade. Para um conjunto de dados exste somente uma méda artmétca.. Smplcdade. A méda artmétca é fácl de ser nterpretada e de ser calculada.. Todos os valores entram para o cálculo da méda artmétca, porém, os valores extremos afetam no valor calculado, e em alguns casos pode haver uma grande dstorção, tornando, neste caso, a méda artmétca ndesejável como medda de tendênca central. Como a méda é nfluencada por valores extremos da dstrbução, ela só deve ser utlzada em dstrbuções smétrcas, ou levemente assmétrcas, e em dstrbuções não heterogêneas. Sua aplcação nos dos casos acma é precára e de pouca utldade prátca, pos perde sentdo prátco e capacdade de representar a dstrbução que a orgnou. Também nos casos de sére em que o fenômeno tem uma evolução não lnear, como as séres de valores fnanceros no tempo, de acordo com uma captalzação composta, a méda mas recomendada sera a geométrca. Fnalmente, não se recomenda à aplcação da méda artmétca nas séres cujos valores representem relações recíprocas, como por exemplo, velocdades, expressas através da relação entre o espaço e o tempo. Neste últmo caso recomenda-se a utlzação da méda harmônca. 6.1. Medana A medana é o valor que ocupa a posção central de um conjunto de valores ordenados, ou seja, medda dvde a dstrbução de valores em duas partes guas: 50% acma e 50% abaxo do seu valor. Quando o conjunto possu quantdade par de valores, há dos valores centras, neste caso, a medana é o valor médo dos dos valores centras do conjunto de dados ordenados. Exemplo: Com os dados do exemplo anteror, calcular a medana. 13,1 13,1 13,1 13, 13,3 13,5 13,5 13,7 13,7 13,8 Nesta sére tem-se número par de observações logo, têm-se dos valores centras e são 13,3 e 13,5. Logo, a medana é 13,4 cm.

3 Suponha, neste mesmo exemplo que se acrescente o valor 14,0 tornando um rol de número ímpar, 13,1 13,1 13,1 13, 13,3 13,5 13,5 13,7 13,7 13,8 14,0 a 13,5 cm. Neste caso, a sére possu apenas um valor central logo, a medana é gual Propredades da medana. Uncdade. Exste somente uma medana para um conjunto de dados... Smplcdade. A medana é fácl de ser calculada. A medana não é tão afetada pelos valores extremos como a méda artmétca, por sso, se dz que a medana é uma medda robusta. Conceto de resstênca de uma medda Dz-se que uma medda de centraldade ou de dspersão é resstente quando ela é pouco afetada pela presença de observações dscrepantes. Entre as meddas de centraldade, a méda é bem menos resstente que a medana. Por outro lado, entre as meddas de dspersão, o desvo padrão é bem menos resstente do que o desvo nter-quartílco. 6.1.3 Moda Moda de um conjunto de valores é o valor que ocorre com maor frequênca, sua aplcação não depende do nível de mensuração da varável, sendo aplcada tanto a fenômenos qualtatvos quanto quanttatvos. Se todos os valores forem dferentes não há moda, por outro lado, um conjunto pode ter mas do que uma moda: bmodal, trmodal ou multmodal. Exemplo: Para os dados dos exemplos anterores a moda é gual a 13,1 cm. A moda pode ser utlzada para descrever dados qualtatvos. Por exemplo, suponha que os pacentes vstos em uma clínca de saúde mental durante um determnado ano receberam um dos seguntes dagnóstcos: retardo mental, pscose,

33 neurose e mudança de personaldade. O dagnóstco que ocorre com maor frequênca no grupo de pacentes pode ser chamado de dagnóstco modal. 6. MEDIDAS DE DISPERSÃO A dspersão de conjunto de dados é a varabldade que os dados apresentam entre s. Se todos os valores forem guas, não há dspersão; se os dados não são guas, exste dspersão entre os dados. A dspersão é pequena quando os valores são próxmos uns dos outros. Se os valores são muto dferentes entre s, a dspersão é grande, assm, as meddas de dspersão apresentam o grau de agregação dos dados. Veja como exemplo a Tabela 14. Tabela 14: Valores das séres A, B e C Repetção Sére A Sére B Sére C 1 45 41 5 45 4 30 3 45 43 35 4 45 44 40 5 45 45 45 6 45 46 50 7 45 47 55 8 45 48 60 9 45 49 65 Méda 45 45 45 Medana 45 45 45 Nota-se que a sére A não apresenta dspersão, já os valores da sére B apresentam certa dspersão em torno da méda 45, e os valores da sére C apresentam uma dspersão em torno da méda e maor do que a da sére B. As meddas descrtvas mas comuns para quantfcar a dspersão são: ampltude, desvo médo, varânca, desvo-padrão e coefcente de varação. 6..1 Ampltude Uma manera de medr a varação em um conjunto de valores é calcular a ampltude. A ampltude é a dferença entre o maor e o menor valor de um conjunto de observações. At = n o maor n o menor

34 Exemplo: Determnar ampltude total da sére: A, B e C. A utldade da ampltude total como medda de dspersão é muto lmtada, pos depende apenas dos valores extremos. A maor vantagem em usá-la é a smplcdade do seu cálculo. 6.. Desvo Médo Uma vez que se deseja medr a dspersão ou grau de concentração dos valores em torno da méda, nada mas nteressante do que analsar o comportamento dos desvos de cada valor em relação à méda, sto é: d = ( x x) Porém, para qualquer conjunto de dados, a soma de todos os desvos é gual a zero, sto é: d = ( x x) = 0 Neste caso, consdera-se o módulo de cada desvo x x, evtando com sso que d = 0. Dessa forma, o desvo de um conjunto de n valores é dado por: DM n = = 1 x x Exemplo: Determnar desvo médo da sére B. n 6..3 Varânca Embora o desvo médo seja uma medda melhor do que a Ampltude, anda não é uma medda deal, pos não dscrmna pequenos dos grandes afastamentos em relação à méda. Se para elmnar o problema dos snas, ao nvés de consderarmos os valores absolutos elevarmos os afastamentos ao quadrado, estaremos não apenas elmnando o problema dos snas como também potencalzando os afastamentos, enfatzando os grandes desvos em relação às

35 observações mas próxmas da méda. Como resultado defne a medda de varação, denomnada de varânca, como: s = n = 1 ( X X ) ou n 1 = = 1 Exemplo: Determnar as varâncas das séres A, B e C. s n X ( n 1 n = 1 X n ) Esta estatístca solada tem dfícl nterpretação por apresentar undade de medda gual ao quadrado da undade de medda dos dados. 6..4 Desvo Padrão Devdo à dfculdade de nterpretação da varânca, por ter sua undade de medda ao quadrado, na prátca usa-se o desvo padrão que é a raz quadrada da varânca, ou seja: s = s Exemplo: Determnar os desvos-padrão das séres A, B e C. 6..5 Erro Padrão Dferentes amostras retradas de uma mesma população podem apresentar médas dferentes. A varação exstente entre este conjunto de médas é estmada através do erro padrão, que corresponde ao desvo padrão das médas, sendo representado por s e calculado pela fórmula: x s x = s n 6..6 Coefcente de Varação Uma pergunta que pode surgr é se um desvo-padrão é grande ou pequeno; questão relevante, por exemplo, na avalação da precsão de métodos. Um desvopadrão pode ser consderado grande ou pequeno dependendo da ordem de grandeza da varável. Por exemplo, um desvo-padrão de 10 pode ser nsgnfcante