Estatística 1 Introdução 2 Tabelas Estatísticas 3 População, Amostra e Variáveis 4 Gráficos e Distribuição de Freqüências Renata Souza
Técnicas de Estatística Descritiva técnicas para extrair informações de conjuntos de dados 35 29 28 24 33 30 28 18 18 2322 17 21 42 28 22 2918 73 22 36 33 22 28 17 14 12 Distribuição das idades dos funcionários número de funcionários 10 8 6 4 2 0 10 20 30 40 50 60 70 idade
Conceitos de Estatística Conceitos Antigos a) simples contagem aritmética Exs: estatística de asfaltos, mais de 2000 acidentes em seis meses no Estado do Rio de Janeiro. O Estado do Ceará tem 679 indústrias A população do Brasil no ano de 2000 é de 169.799.170. b) Sinônimo de dados publicados oficialmente Publicações tais como: Anuário Estatístico do Brasil, Revista Brasileira de Estatística, IBGE, Boletim Estatístico.
Conceitos de Estatística Conceitos Antigos Exs: O anuário Estatístico do Brasil revelou mais de três mil milionários no Braisl. Segundo as estatísticas realizadas pela Organização Mundial de Saúde, ultimamente divulgada, as doenças cardíacas constituem a primeira causa de óbitos. c) Simples transformação numéricas (percentagens, médias e razões, etc.) Exs: Só 35 em 1000 alunos do curso primário concluem o Secundário. 58% dos veículos que rodam no país são nacionais. Um carro para 16 pessoas em São Paulo.
Conceitos de Estatística d) Construção de tabelas e gráficos Conceitos Antigos Número de Pessoas por Região e Sexo Sexo Norte Nordete Masc. 5.44 7.80 Fem. 5.52 9.02 Total 10.96 16.82 Fonte: DataSus
Tabelas Estatísticas As tabelas devem obedecer à Resolução n 0 886, de 26 de outrubro de 1966, do Conselho Nacional de Estatística. Cabeçalho, Corpo e Rodapé O Cabeçalho deve conter o suficiente pra que sejam respondidas as seguintes perguntas
Tabelas Estatísticas Vendas no 1 0 bimestre de 1996 da ABC Veículos Período Unidades Vendidas Corpo: Contém os registros dos dados Janeiro/1996 20 Fevereiro/1996 10 Total 30 O que refere o fato? Vendas Onde? ABC Veículos Quando? no 1 0 bimestre de 1996 Fonte: ABC Veículos Rodapé: Fonte dos dados
Séries Estatísticas É qualquer tabela que apresenta a distribuição de um conjunto de dados estatísticos em função da ÉPOCA LOCAL OU ESPÉCIE
1. Série Temporal ou Cronológica Identifica-se pelo caráter variável do fator cronológico. O local e a espécie (fenômeno) são elementos fixos.. Vendas no 1 0 bimestre de 1996 da ABC Veículos, por mês Período Unidades Vendidas Janeiro/1996 20 Fevereiro/1996 10 Total 30 Fonte: ABC Veículos
2. Série Geográfica ou Histórica Apresenta como elemento variável o fator geográfico. A época e o fato (espécie) são elementos fixos. Também é chamada de espacial, territorial ou de localização. Vendas no 1 0 bimestre de 1996 da ABC Veículos, por filial Filiais Unidades Vendidas São Paulo 13 Rio de Janeiro 17 Total 30 Fonte: ABC Veículos
3. Série Específica O caráter variável é apenas o fato ou espécie. Também é chamada de série categórica. Vendas segundo a marca, no 1 0 bimestre de 1996 da ABC Veículos Marca Unidades Vendidas. FIAT 18 GM 12 Total 30 Fonte: ABC Veículos
4. Distribuição de Freqüências É a série em que os dados são agrupados com suas respectivas freqüências. Vendas no 1 0 bimestre de 1996 da ABC Veículos Número de Carros por dia Número de de dias 100 200 42 200 300 18 Total 60 Fonte: ABC Veículos
População e Amostra População: grande conjunto de dados que tem as características de interesse. Em muitas situações não é possível acessar todas a população. Em geral as razões econômicas são as mais determinantes. Amostra é um subconjunto da população
Estatisitica descritiva População Amostra Inferência Estatística Estimação de quantidades Extrapolação dos resultados Testes de Hipóteses
População e Amostra A seleção da amostra pode ser feita e diversas maneiras dependentes entre outros fatores, do grau de conhecimento que temos da população e de recursos disponíveis. A idéia é que amostra tenta fornecer um subconjuto de valores o mais parecido possível com a população que lhe dá origem. A amostragem mais usada é a casual simples, em que selecionamos ao acaso, com ou sem reposição, os itens da população que farão parte da amostra.
Levantamento por Amostragem POPULAÇÃO: moradores de uma metrópole AMOSTRA: uma parte dos moradores
Exemplos de Tipo de Amostragem 1. Amostragem Aleatória Um professor deseja oferecer prêmios (5 livros) a seus alunos em número de 35 e resolve apelar para o sorteio. 2. Amostragem Estratificada A turma tem 13 alunos e 22 alunas. A amostra é 5 = 35 1 de 13 = 1,86 2 alunos 7 7 1 7 1 de 22 = 3,14 3 alunas
Exemplos de Tipo de Amostragem 3. Amostragem Sistemática Sorteia-se apens um número aleatoriamente entre 1 a 35 e depois de 7 em 7 somando sempre 7 ao número econtrado. Suponha que o primeiro número é 14 então, O segundo é 14+7=21 O terceiro é 21+7 = 28 O quarto é 35 O quinto é 7 Por que de 7 em 7? 5 1 = um em cada 7 é o intervalo da amostra 35 7
Tipos de Dados O trabalho estatístico exige um conjunto de dados resultante de uma coleta de informações extraídas da população. Exemplos: Suponha que um questionário foi aplicado aos alunos do primeiro ano da escola. Id: número de identificação do aluno Turma: turma em que foi alocado (A ou B) Sexo: F se feminino, M se masculino Idade: idade em anos Altura: altura metros Peso: peso em quilograma Classe social: baixa, média ou alta Cada Característica é chamada de variável
Variável Característica que pode ser observada (ou mensurada) nos elementos da população, devendo ter um e apenas um resultado para cada elemento observado. Variável Classificação de variáveis Qualitativa Quantitativa Nominal Ordinal Discreta Contínua
Variáveis Qualitativas - O resultado da variável é um atributo ou uma qualidade. Exemplos: tipo de unidade de I/O, tipo de microprocessador, grau de instrução do usuário do sistema, etc. Quantitativas - O resultado é um número numa escala pré-determinada. Exemplos: quantidade de máquinas ligadas, número de transações por segundo, tempo de resposta, etc.
Variáveis Qualitativas Ordinais - Representam atributos de qualidades com uma ordenação natural Exemplos: Classe social: A alta, M média, C baixa Escolaridade: 1 Primário 2 Secundário 3 Superior Não Ordinais (Nominais) - Representam atributos de qualidades sem uma ordenação natural Exemplos: Sexo: F- feminino M masculino Turma na escola: A ou B Cor: amarelo, branco, verde e azul Hábito de fumar: Sim ou não
Variáveis Quantitativas Discretas - Os resultados possíveis formam uma lista finita (geralmente, números inteiros). Exemplo: quantidade de máquinas ligadas. Contínuas - Teoricamente, existem infinitos resultados possíveis (um intervalo dos números reais) Exemplo: tempo de resposta (em segundos).
Distribuição de Freqüências O método mais útil para descrever resultados obtidos com respeito a uma variável é, sem sombra de dúvida, a distribuição de freqüência. 160 156 178 162 137 154 139 162 156 142 182 138 172 162 144 154 162 156 155 157 165 168 147 152 142 148 156 155 166 142 152 148 186 128 141 150 142 147 148 153 Tab.: Altura de uma amostra de pessoas (em cm.)
Distribuição de Freqüências poucos intervalos: os grupos se tornam muito abrangentes, impedindo uma maior precisão; muitos intervalos: risco de não realçar os aspectos relevantes; def. da amplitude dos intervalos
Distribuição de Freqüências Int Contagem f 185 -- 189 / 1 180 -- 184 / 1 175 -- 179 / 1 170 -- 174 / 1 165 -- 169 /// 3 160 -- 164 ///// 5 155 -- 159 /////// 7 150 -- 154 ////// 6 145 -- 149 ///// 5 140 -- 144 ////// 6 135 -- 139 /// 3 130 -- 134 0 125 -- 129 / 1 13 intervalos Amplitude = 59/13 4,5 4 8 7 6 5 4 3 2 1 0 122 127 f 132 137 142 147 152 157 162 167 172 177 182 Fig.: Polígono de Freqüência 187 192 f
Polígono de Freqüências Acumuladas 75% das pessoas medidas tem menos de 1,61m 75% de 40 = 30 f acum (x) = 30; x=? 45 40 35 30 25 20 15 10 5 0 122 127 132 137 142 147 f. acum. 152 157 162 167 172 177 182 187 192 Fig. 3: Polígono de Freqüências f. acum. Fig.: Polígono de Freqüências Acumuladas
Histogramas Representação gráfica de uma distribuição de freqüências por meio de retângulos justapostos 8 7 6 5 4 3 2 1 0 f f 122 127 132 137 142 147 152 157 162 167 172 177 182 187 192
Exemplo usando variável qualitativa ordinal Grau de instrução do chefe da casa, numa amostra de 40 famílias do Conj. Resid. Monte Verde, Florianópolis, SC, 1988. Códigos: 1 - nenhum grau de instrução completo 2 - primeiro grau completo e 3 - segundo grau completo Resultados observados em cada família 3 3 2 2 3 1 3 3 3 2 2 1 2 2 3 2 3 3 3 3 3 3 3 2 2 3 1 3 2 3 3 2 3 1 1 1 3 3 3 3
Distribuição de Freqüências do Grau de Instrução do chefe da casa Grau de Instrução Nenhum grau Primeiro grau Segundo grau Frequência Absoluta 6 11 23 Frequência Relativa (em %) 15,0 27,5 57,5 Total 40 100,0
Gráfico de Barras Grau de Instrução do Chefe da Casa segundo grau primeiro grau nenhum 0 4 8 12 16 20 24 número de famílias
Gráfico em colunas Grau de instrução do chefe da casa 25 número de famílias 20 15 10 5 0 nenhum primeiro grau segundo grau
Gráfico de Setor Grau de Instrução do chefe da casa nenhum (15,0 %) Total 360 Parte x segundo grau (57,5 %) primeiro grau (27,5 %)
Exemplo usando variável quantitativa Discreta Numa rede de computadores, a quantidade de máquinas que costumam estar ligadas, por dia 20 26 21 21 20 21 23 22 24 22 22 22 23 23 23 22 23 22 24 21
Distribuição de Freqüências Máquinas em uso 20 21 22 23 24 25 26 Total Freqüência (absoluta) 2 4 6 5 2 0 1 20 Freqüência (relativa) 0,10 (10%) 0,20 (20%) 0,30 (30%) 0,25 (25%) 0,10 (10%) 0 0,05 ( 5%) 1 (100%)
Gráfico de Hastes Freq. 6 4 2 20 21 22 23 24 25 26 Máquinas em uso
Exemplo usando variável quantitativa Contínua Tempo (em segundos) para carga de um aplicativo num sistema compartilhado (50 observações): 5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7 6,3 5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7 8,2 7,1 4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1 6,0 4,7 18,1 5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9 6,5 5,9
Primeiro passo: Determinar a amplitude 5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7 6,3 5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7 8,2 7,1 4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1 6,0 4,7 18,1 5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9 6,5 5,9 4,7 Amplitude é 18,1-4,7 = 13,4 18,1
Segundo passo: Determinar a amplitude Estimativa do número de intervalos k = n = 50 = 7,07 = Estimativa da amplitude de intervalos 7 poucos intervalos: os grupos se tornam muito abrangentes, impedindo uma maior explicação do comportamento; muitos intervalos: risco de não realçar os aspectos relevantes; h = range h = 13,4 / 7 = 1,914 = 1,92
Distribuição de Freqüências Máquinas em uso 4.70 -- 6.62 6.62 -- 8.54 8.54 -- 10.46 10.46 -- 12.38 12.38 -- 14.30 14.30 -- 16.22 16.22 -- 18.14 Total Freqüência (absoluta) 34 12 3 0 0 0 1 50 Freqüência (relativa) 0,68 (68%) 0,24 (24%) 0,06 (6%) 0 (0%) 0 (0%) 0 (0%) 0,02 ( 2%) 1 (100%)
Histograma do tempo (em segundos) para carga de um aplicativo num sistema compartilhado (50 observações). Frequencia 40 35 30 25 20 15 10 5 0 5,66 7,58 9,5 11,42 13,34 15,26 17,18 tempo (seg)
Diagramas de Dispersão Um diagrama de dispersão serve para saber se existe alguma correlação (forte, fraca, moderada, positiva, negativa, etc.) entre duas variáveis.
Gráfico de Curvas Usados em processos para se acompanhar a evolução de uma variável em relação a um ou mais limites existentes Turbidez no Rio Capivari Turbidez (UNT) 100 80 60 40 20 Turbidez antes da bacia Turbidez depois da bacia Limite legislação 0 4/1 20/2 12/4 29/5 5/7 28/8 16/10 5/12 Dia/95 Fig.: Gráfico de Controle
Considerações Dados Qualitativos melhor visualização com gráfico de barras, colunas ou circulares (tipo torta); Variáveis Discretas (tipo número de filhos por casal) é comum que utilizemos medidas intervalares para melhor codificá-las gráfico de hastes (com enumeração natural) com freqüências ou freqüências acumuladas; Variáveis contínuas gráficos em forma de histograma e polígonos de freqüência.
Considerações Muitas vezes precisamos relacionar as variáveis em estudo: diagramas de dispersão são aconselháveis; Gráficos setoriais, particularmente úteis para visualizar diferenças entre classes. Não acomodam grandes quantidades de categorias reagrupar as menos importantes em um grupo chamado outros ou, utilizar um gráfico de barras, sendo que estas devem vir separadas; O uso de polígonos de freqüência induz o leitor a aceitar a continuidade da variável apresentada.
Considerações Os gráficos tipo torta (setor) permitem uma visualização das partes em função do todo. Servem para enfatizar a importância de um setor (grupo, produto, etc.) frente a outros As séries cronológicas podem ser representadas por gráficos de: colunas, curvas e barras. As séries específicas e geográficas podem ser representadas por gráficos de: colunas, barras e setor.