Estatística October 28, 2013 UFOP October 28, 2013 1 / 54
NOME 1 ESTATÍSTICA Definições importantes O Método Estatístico Coleta de dados Usando o Excel 2 Tipos de variáveis Variáveis Qualitativas Variáveis Quantitativas UFOP October 28, 2013 2 / 54
Introdução A estatística é uma ciência que se interessa em obter conclusões a partir de dados observados e no método cientifico para coleta, organização, resumo, apresentação, análise e interpretação de dados amostrais. A estatística iniciou-se como método cientifico a partir de 1925 com o trabalho de R. A. Fisher, embora o trabalhos pioneiros de Gauss no fim do século anterior e dos trabalhos de Gosset de 1908, publicado com o pseudônimo de Student, foram de extrema importância. UFOP October 28, 2013 3 / 54
De um modo geral, podemos dividir a estatística em três áreas: Estatística descritiva, Probabilidade e Inferência Estatística. A estatística descritiva pode ser definida como um conjunto de técnicas destinadas a descrever e resumir os dados, a fim de que possamos tirar conclusões a respeito de características de interesse. A probabilidade pode ser pensada como a teoria matemática utilizada para se estudar a incerteza oriunda de fenômenos de caráter aleatório. A inferência estatística é o estudo de técnicas que possibilitam a extrapolação, a um grande numero de dados, das informações e conclusões obtidas a partir de um subconjunto de valores. UFOP October 28, 2013 4 / 54
Definições importantes População: é uma coleção completa de todos os elementos a serem estudados. (valores, pessoas, medidas, etc). Amostra: é uma subcoleção de elementos extraídos de uma população. A amostra deve ser selecionada seguindo certas regras e deve ser representativa. A representatividade é obtida quando apresenta tamanho suficiente e é composta de forma aleatória (probabilística). Censo: atividade de inspecionar (observar) todos os elementos de uma população, objetivando conhecer, com certeza suas características. Amostragem: É o processo de retirada de informações dos n elementos amostrais, no qual deve seguir um método criterioso e adequado (tipos de amostragem). UFOP October 28, 2013 5 / 54
Parâmetro é uma medida numérica que descreve uma característica de uma população. Estatística é uma medida numérica que descreve uma característica de uma amostra. Variável: É aquilo que se deseja observar para se tirar algum tipo de conclusão, geralmente as variáveis para estudo são selecionadas por processos de amostragem. Os símbolos utilizados para representar as variáveis são as letras maiúsculas do alfabeto, tais como X, Y, Z,... que pode assumir qualquer valor de um conjunto de dados. UFOP October 28, 2013 6 / 54
O Método Estatístico O Método Estatístico pode ser descrito pelas etapas a seguir: Definição do problema Consiste na: formulação correta do problema; examinar outros levantamentos realizados no mesmo campo (revisão da literatura); saber exatamente o que se pretende pesquisar definindo o problema corretamente (variáveis, população, hipóteses, etc.) UFOP October 28, 2013 7 / 54
Planejamento Determinar o procedimento necessário para resolver o problema: Como levantar informações; Tipos de levantamentos: Por Censo (completo); Por Amostragem (parcial). Cronograma, Custos, etc. UFOP October 28, 2013 8 / 54
Coleta da dados Consiste na obtenção dos dados referentes ao trabalho que desejamos fazer: A coleta pode ser: Direta - diretamente da fonte ou Indireta - feita através de outras fontes. Os dados podem ser obtidos pela própria pessoa (primários) ou se baseia no registro de terceiros (secundários). UFOP October 28, 2013 9 / 54
Apuração e apresentação dos dados Consiste em resumir os dados, através de uma contagem e agrupamento. É a fase em que vamos mostrar os resultados obtidos na coleta e na organização. É um trabalho de coordenação e de tabulação. A apresentação dos dados pode ser: Tabular (apresentação numérica) Gráfica (apresentação geométrica) UFOP October 28, 2013 10 / 54
Análise e interpretação dos dados É a fase mais importante e também a mais delicada. Aqui são tiradas as conclusões que auxiliam o pesquisador a resolver seu problema. UFOP October 28, 2013 11 / 54
Coleta de dados Amostragem Aleatória Simples Dentre as mais diversas maneiras para coletar dados, a amostragem é mais frequente, particularmente sobre fenômenos sociais e econômicos. Apresentamos aqui o processo mais comum e útil para a condução de investigações empíricas: seleção de uma amostra aleatória simples UFOP October 28, 2013 12 / 54
Uma amostra é probabilística quando os elementos amostrais são escolhidos com probabilidades conhecidas. Na Amostragem aleatória simples, todos os elementos da população têm igual probabilidade de compor a amostra. Uma amostra em que a probabilidade de escolher qualquer um dos N elementos em uma prova única é igual a 1 N é uma amosta aleatória. UFOP October 28, 2013 13 / 54
Se a população é infinita, como, por exemplo, toda a produção futura de uma máquina, podemo considerá-la um processo probabilístico compondo as amostras aleatórias na ordem que ocorrerem. Enquanto o processo se mantiver estável, faremos nossas observações admitindo que a probabilidade de cada possível resultado se mantenha constante. Exmplos de processos dessa natureza são: chamadas telefônicas, veículos que cruzam deteminada avenida, produção, tempo de atendimento em caixas de supermercados, etc. UFOP October 28, 2013 14 / 54
Se a população é finita, tal como livros de uma biblioteca, estudantes de uma faculdade,automóveis de um município, empresas de certa região, etc, a escolha de uma amostra aleatória envolve a compilação de uma lista de todos os elementos da população, e a realização dos sorteios para escolher os itens que irão compor a amostra. UFOP October 28, 2013 15 / 54
Tabela de Números Aleatórios Tabela de Números Aleatórios As tabelas de números aleatórios contêm os 10 algarimos 0, 1, 2, 9, dispostos aleatoriamente em colunas e linhas. Parte de uma tabela de números aleatórios é apresentada a seguir: UFOP October 28, 2013 16 / 54
UFOP October 28, 2013 17 / 54
UFOP October 28, 2013 18 / 54
UFOP October 28, 2013 19 / 54
Usando o Excel Os pacotes estatísticos e a Planilha Eletrônica do Excel têm procedimentos para a geração de números aleatórios e, consequentemente, de amostras aleatórias. UFOP October 28, 2013 20 / 54
UFOP October 28, 2013 21 / 54
UFOP October 28, 2013 22 / 54
Essa função, que tem sintaxe = Aleatorio ou = Rand, retorna um número aleatório ou randômico igual ou superior a 0 (zero) e menor do que 1 (um) na célula selecionada. Esse número é recalculado automaticamente sempre que qualquer operação for realizada no ambiente da planilha onde foi gerado, ou sempre que a tecla F 9 for acionada. Uma vez que o pesquisador necessite de valores no intervalo entre 00 e 99, deverá multiplicar o número aleatório por 10 2, no intervalo de 000 a 999 por 10 3, e assim, sucessivamente, de acordo com a necessidade. UFOP October 28, 2013 23 / 54
No entanto, nesta opção podem ser gerados valores fora do intervalo desejado a exemplo do que ocorre na tabela de números aleatórios. A fórmula escrita poderá ser copiada para outras células localizadas abaixo ou lateralmente. Vamos selecionar os funcionários do exercício anterior utilizando essas funções. UFOP October 28, 2013 24 / 54
Existe outra função que pose ser bem mais interessante do ponto de vista prático, pois é capaz de gerar números aleatórios entre dois limites fixados pelo pesquisador. A sintaxe é a seguinte: = ALEAT RIOENT RE() ou = RANDBET W EEN() Na janela selecione a categoria Math&T rig e em seguida a função Aleatorioentre. Em seguida informe os valores mínimo e máximo, por exemplo, 001 e 700. UFOP October 28, 2013 25 / 54
UFOP October 28, 2013 26 / 54
Tipos de variáveis Antes de definir o problema a ser estudado, devemos ter em mente quais as características dos elementos de uma população deverão ser estudados. Ou seja, não trabalharemos com os elementos existentes, mas com algumas características desses elementos. Por exemplo, os elementos a serem estudados podem ser a população de uma cidade, mas estaremos interessados em alguma característica como renda, idade, sexo, tipo de moradia, etc. Trabalharemos, portanto com os valores de uma VARIAVEL, que é a característica de interesse, e não com os elementos originalmente considerados. A escolha da variável, ou variáveis de interesse dependerá dos objetivos do estudo estatístico em questão. UFOP October 28, 2013 27 / 54
As variáveis podem ser classificadas como qualitativas ou quantitativas. A variável será QUALITATIVA quando resultar de uma classificação por tipos ou atributos. As variáveis qualitativas ainda podem ser subdivididas em qualitativa nominal e qualitativa ordinal. Se tais variáveis têm uma ordenação natural, indicando intensidades crescentes de realização, então, elas serão classificadas como qualitativas ordinais. Caso contrário, quando não é possível estabelecer uma ordem natural entre seus valores, elas são classificadas como qualitativas nominais. UFOP October 28, 2013 28 / 54
Exemplos: Variável qualitativa nominal. - sexo (feminino ou masculino) - tipo de habitação (casa, apartamento, kitnet, barraco, etc) Variável qualitativa ordinal. - qualidade de um programa de TV (ruim regular, boa, ótima) - grau de instrução: ensino fundamental, ensino médio e ensino superior. UFOP October 28, 2013 29 / 54
A variável será QUANTITATIVA quando seus valores forem expressos por números. As variáveis quantitativas podem ser subdivididas em quantitativas discretas, quando temos números resultantes de uma contagem e quantitativas continuas, quando temos números resultantes de uma mensuração. UFOP October 28, 2013 30 / 54
Exemplos: Variável quantitativa discreta - Numero de filhos (0,1,2...) - Numero de peças defeituosas numa produção de pregos Variável quantitativa continua - Comprimento (em centímetros, metros, etc) - Peso (em quilogramas) UFOP October 28, 2013 31 / 54
UFOP October 28, 2013 32 / 54
Variáveis Qualitativas Para resumir dados qualitativos, utilizam-se contagens, proporções, porcentagens, taxas por 1000, taxas por 1.000.000, etc, dependendo da escala apropriada. Freqüentemente o primeiro passo da descrição de dados é criar uma tabela de freqüências. Antes de montar a tabela de distribuição de freqüências temos algumas definições: UFOP October 28, 2013 33 / 54
Freqüência - medida que quantifica a ocorrência dos valores de uma variável a um dado conjunto de dados. As freqüências podem ser: Absoluta (f i ) - contagem das observações de uma variável. Relativa (f r ) - divisão da freqüência absoluta pelo total de observações. f r = f i n Percentual (f p ) - é a frequência relativa multiplicada por 100. f p = 100xf r UFOP October 28, 2013 34 / 54
Exemplo Foi observado a atividade agropecuária predominante em 20 propriedades de um município. Como se observa, a atividade predominante corresponde a uma variável qualitativa nominal, pois não é passível de ordenação. café leite leite milho café milho soja leite leite café milho café olericultura leite café laranja café milho café café UFOP October 28, 2013 35 / 54
Tabelas simples como esta são na maioria das vezes suficientes para descrever dados qualitativos especialmente quando existem poucas categorias. Atividade f i f r f p café 8 0,40 40 leite 5 0,25 25 olericultura 1 0,05 5 soja 1 0,05 5 milho 4 0,20 20 laranja 1 0,05 5 UFOP October 28, 2013 36 / 54
Representação gráfica Os dados qualitativos podem ser bem representados pelos gráficos de disco ou pizza e também pelo gráfico de barras. O gráfico de disco ou pizza, ou ainda, diagrama circular se adapta muito bem às variáveis qualitativas nominais. Consiste em repartir um disco em setores circulares correspondentes à porcentagem de cada valor, multiplicando-se por 100, a freqüência relativa f i. O gráfico de barras utiliza o plano cartesiano com os valores da variável no eixo das abcissas e as freqüências ou porcentagens no eixo das ordenadas. Para cada valor da variavel desenha-se uma barra com uma altura correspondendo à sua freqüência ou porcentagem. Este gráfico se adapta muito bem às variáveis discretas ou qualitativas ordinais. UFOP October 28, 2013 37 / 54
Construção de gráficos Automóveis nacionais masi vendidos - janeiro/agosto de 2000 veiculos quantidades vendidas gol 166.158 uno 58.556 palio 86.776 astra 22.006 corsa 66.065 vectra 23.162 palio weekend 18.997 fiesta 24.586 corsa sedan 55.334 parati 18.765 UFOP October 28, 2013 38 / 54
UFOP October 28, 2013 39 / 54
UFOP October 28, 2013 40 / 54
Os passos seguintes podem melhorar o gráfico: Clicar sobre a legenda (Série 1) e Delete para que o gráfico automaticamente se ajuste ao espaço da figura. Para incluir títulos, clicar no gráfico e utilizar o menu Layout que aparece na barra de ferramenta principal do Excel. Retirar as linhas horizontais no gráfico, clicando nas mesmas e em seguida Delete. Para alterar o tipo de gráfico, utilize o menu Inserir. Ao clicar sobre o novo tipo de gráfico, a figura automaticamente sofrerá alterações. UFOP October 28, 2013 41 / 54
UFOP October 28, 2013 42 / 54
UFOP October 28, 2013 43 / 54
Gráfico final - Exemplo UFOP October 28, 2013 44 / 54
Variáveis Quantitativas Para os dados quantitativos a forma de representação mais simples é a distribuição de freqüência. A distribuição de freqüência é a distribuição dos dados em classes ou categorias, onde o número de elementos pertencentes a cada classe é determinado e representa a freqüência de classe. Uma das formas mais comuns de se construir uma tabela de distribuição de freqüência é a seguinte: UFOP October 28, 2013 45 / 54
1 o Passo: Construir o Rol (dados em ordem crescente) e determinar a Amplitude Total ou Range A = Maior valor na amostra Menor valor na amostra A = X (n) X (1) UFOP October 28, 2013 46 / 54
2 o Passo: Determinar o número de classes (k): geralmente o número de classes é escolhido por muitos autores em um valor entre 5 e 20, de uma forma empírica. A familiaridade do pesquisador com os dados é que deve indicar quantas classes devem ser construídas. Uma maneira de se determinar um número razoável, k, de classes consiste em aplicar a fórmula de Sturges, que sugere o cálculo de k mediante a expressão: k = 1 + 3, 32 logn Outra forma de se calcular o valor de k consiste em tomar a raiz quadrada de n, assim, k = n UFOP October 28, 2013 47 / 54
3 o Passo: De posse do valor k e de A, iremos encontrar a amplitude de classe (c), dada por c = A k. 4 o Passo: Definir o limite inferior da primeira classe: L i = X (1) Quanto aos limites das classes, usaremo o seguinte critério: a b (incluiremos nesta classe todos os elementos maiores ou iguais a a e menores do que b) UFOP October 28, 2013 48 / 54
Temos ainda que: x i é o ponto médio da i-ésima classe, é a média dos pontos extremos da classe, f i é a quantidade de observações, ou freqüência, da i-ésima classe, n é a quantidade total de observações n = f i, f r é a freqüência relativa da classe f r = f i n, F A é a freqüência acumulada até a i-ésima classe e indica a quantidade de observações inferiores ao limite superior da classe. F ra é a freqüência relativa acumulada até a i-ésima classe e indica a quantidade de observações relativas inferiores ao limite superior da classe. UFOP October 28, 2013 49 / 54
Exemplo Construa uma tabela de distribuição, para as seguintes alturas, expressas em centímetros, de 30 atletas do sexo masculino de uma universidade: 168 172 170 181 169 173 164 175 182 177 176 173 170 186 183 170 168 166 169 180 175 164 181 179 172 169 174 171 178 166 UFOP October 28, 2013 50 / 54
Ordenar os dados 164 164 166 166 168 168 169 169 169 170 170 170 171 172 172 173 173 174 175 175 176 177 178 179 180 181 181 182 183 186 Calcular da amplitude total (maior valor - menor valor): A = X (n) X (1) = 186 164 = 22 Calcular do número de classes: k = 30 = 5 UFOP October 28, 2013 51 / 54
Calcular da amplitude da classe: c = amplitudetotal nmerodeclasses = A k = 22 5 = 4, 40 Definir o limite inferior da primeira classe: LI 1 = X (1) = 164 UFOP October 28, 2013 52 / 54
UFOP October 28, 2013 53 / 54
Representação gráfica Os dados quantitativos podem ser bem representados pelo histograma e polígono de freqüência. Histograma é um gráfico representado por retângulos (barras) contíguos (que toca em alguma coisa) no qual os extremos da base do retângulo i são definidos pelos limites da classe i e a altura é proporcional à freqüência. A área total do histograma deve ser igual a 1 ou 100%. Polígono de frequências: consideramos a poligonal que une os pontos médios das bases superiores dos retângulos dos histogramas (pontos médios das classes). UFOP October 28, 2013 54 / 54