Prof. Dr. Engenharia Ambiental, UNESP

Documentos relacionados
ESTATÍSTICA DESCRITIVA

Distribuição de frequências:

Medidas resumo numéricas

PROBABILIDADE E ESTATÍSTICA ESTATÍSTICA DESCRITIVA

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

Conceito de Estatística

Medidas de Posição ou Tendência Central


Estatística Aplicada a Negócios

n = 25) e o elemento (pois = 19) e terá o valor 8. Verifique que antes e depois do 19 o elemento, teremos 18 elementos.

Unidade III Medidas Descritivas

ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTE

Estatística para Cursos de Engenharia e Informática

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

Estatística Computacional Profª Karine Sato da Silva

Estatística Descritiva

Estatística. 1 Medidas de Tendência Central 2 Medidas de Posição 3 Medidas de Dispersão. Renata Souza

Estatística Descritiva

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

Elementos de Estatística

Tutorial para o desenvolvimento das Oficinas

ASSIMETRIA E CURTOSE

Cap. 6 Medidas descritivas

1. Registou-se o número de assoalhadas de 100 apartamentos vendidos num bairro residencial

Estatística Aplicada

Capítulo 3 Estatísticas para Descrição, Exploração e Comparação de Dados. Seção 3-1 Visão Geral. Visão Geral. Estatísticas Descritivas

I.1. Seleccionado um passageiro ao acaso, qual a probabilidade de ter idade no intervalo [20 a 50) anos e ser fraudulento?

Prof. Lorí Viali, Dr. Prof. Lorí Viali, Dr. PUCRS FAMAT: Departamento de Estatística

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Notas de Aula. Estatística Elementar. by Mario F. Triola. Tradução: Denis Santos

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2

Métodos Experimentais em Ciências Mecânicas

Métodos Estatísticos Básicos

ESTATÍSTICA DESCRITIVA. Aula 07 Estatística Descritiva

ASSIMETRIA E CURTOSE

Autores: Fernando Sebastião e Helena Silva

MEDIDAS DE TENDÊNCIA CENTRAL

Errata. Mattos/Konrath/Azambuja Introdução à Estatística - Aplicações em Ciências Exatas 1ª Edição/2017 1ª Impressão

Estatística Descritiva (I)

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Apontamentos de Introdução às Probabilidades e à Estatística

Estatística Descritiva (I)

SCC0173 Mineração de Dados Biológicos

2. Estatística Descritiva

MÉTODOS QUANTITATIVOS APLICADOS. Prof. Danilo Monte-Mor

Introdução à Estatística Estatística Descritiva 22

Importância da estatística 17. O que é a Estatística? 18

IFF FLUMINENSE CST EM MANUTENÇÃO INDUSTRIAL

AULA 2 UNIDADE 1 DISTRIBUIÇÃO DE FREQUÊNCIAS 1.1 INTRODUÇÃO

ESTATÍSTICA DESCRITIVA E PREVISÃO INDICE

Estatística Descritiva

Capítulo 3: Elementos de Estatística e Probabilidades aplicados à Hidrologia

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Estatística Descritiva (I)

Estatística Descritiva

Assimetria e Curtose

ESTATÍSTICA. Estatística é o conjunto de métodos para a obtenção, organização, resumo, análise e interpretação dos dados.

PARTE 1. Profa. Dra. Alessandra de Ávila Montini

MEDIDAS DE POSIÇÃO E DE DISPERSÃO. Profª Andréa H Dâmaso

Estatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo:

Estatística descritiva

Introdução à Probabilidade e Estatística I

um conjunto de métodos e processos quantitativos que servem para estudar e medir os fenômenos coletivos Aplicações em quase todas as áreas de

Prof. Lorí Viali, Dr.

Estatística I Aula 3. Prof.: Patricia Maria Bortolon, D. Sc.

Medidas de Variação ou Dispersão

Bioestatística. Luiz Ricardo Nakamura Cristiane Mariana Rodrigues da Silva. Ciências biológicas a USP ESALQ. Estatística

ESTATÍSTICA COMPUTACIONAL AULA 5 ASSIMETRIA E CURTOSE

Estatísticas Descritivas. Estatística

SUMÁRIOS DE VARIÁVEIS ALEATÓRIAS CONTINUAS

Amostragem Aleatória e Descrição de Dados - parte I

DISCIPLINA: EPIDEMIOLOGIA E BIOESTATÍSTICA LICENCIATURA: ENFERMAGEM; FISIOTERAPIA

Fernando de Pol Mayer

Aula 03. Medidas Descritivas de Variáveis Quantitativas. Parte 1 Medidas de Tendência Central

Análise Descritiva de Dados

b) 5 6 d) 1 6 e) 7 6

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Mas, para começar a aplicar métodos estatísticos, é preciso conhecer alguns conceitos básicos.

Introdução à Bioestatística Turma Nutrição Aula 3 Análise Descritiva: Medidas de Tendência Central Medidas de Variabilidade

Inferência Estatística: Conceitos Básicos I

Exploração e Transformação de dados

Unidade I ESTATÍSTICA DESCRITIVA. Profa. Isabel Espinosa

Estatística Aplicada. UNIVERSIDADE ESTÁCIO DE SÁ-RECIFE 2013 Prof: Wildson Cruz

Transcrição:

INTRODUÇÃO A ESTATÍSTICA ESPACIAL Análise Exploratória dos Dados Estatística Descritiva Univariada Roberto Wagner Lourenço Roberto Wagner Lourenço Prof. Dr. Engenharia Ambiental, UNESP

Estrutura da Apresentação Estatística descritiva e inferencial Tipos de dados Variável aleatória Apresentação estatística Distribuição de freqüências Medidas descritivas Modelos de distribuição Populações estatísticas

Estatística descritiva e inferencial A estatística descritiva tem por objetivo descrever a realidade observada (população ou amostra), usando métodos numéricos e métodos gráficos e realizando comentários simples de maneira mais informativa possível. Pode-se dizer que a estatística descritiva ocupa-se do tratamento de dados quantitativos (ordenação, exposição e sumarização de registros de dados) do fenômeno em estudo. A estatística inferencial (ou indutiva) ocupa-se em formular inferências sobre uma população, com base em informações contidas na amostra. Ou seja, através de técnicas inferenciais conclui-se para o todo, a partir da observação de uma parte. Assim, os métodos de estatística inferencial só podem ser utilizados, com algum sentido, sobre dados amostrais.

Tipos de dados A experiência diária mostra a necessidade de se fazer generalizações sobre assuntos e circunstâncias que freqüentemente ultrapassam as fronteiras do quotidiano indicando que, dentro de certos limites, o conhecimento de uma parte do todo é uma informação prática e útil que pode ser aplicável à totalidade. Essa parte representativa do todo é denominada amostra. O procedimento de obtenção de uma amostra chama-se levantamento por amostragem e é utilizado para diminuir o custo total do levantamento de dados. As características numéricas de uma população chama-se parâmetros, enquanto que estatísticas são características de uma amostra. Normalmente, as estatísticas são utilizadas como base para se estimar os parâmetros populacionais.

Variável aleatória Variável em estatística, é a atribuição de um número a cada característica da unidade de observação, ou seja, é uma função matemática definida na população. É importante que se saiba distinguir entre variáveis quantitativas e qualitativas. Uma outra distinção importante é entre variáveis discretas e variáveis contínuas. Uma variável aleatória é uma variável que tem associada a si as possibilidades de assumir seus diferentes valores (no caso de a variável ser discreta) ou se encontrar dentro de intervalos determinados (no caso de ser contínua).

Uma variável aleatória também possui média e variância. A sua média, também chamado valor esperado ou esperança matemática, e que se representa por E(x), é a média aritmética dos valores assumidos pela variável ponderados por suas respectivas probabilidades. Quando a variável é discreta, tais probabilidades são dadas pela chamada função de probabilidade e, para variáveis aleatórias contínuas, pela função distribuição de probabilidade.

Apresentação estatística Uma vez coletados, os dados devem ser reunidos de forma utilizável. Geralmente isso é feito por meio de tabelas e gráficos, constituindo a chamada apresentação estatística. A forma mais simples de apresentar um banco de dados, por exemplo, é simplesmente listá-lo. A única informação, no entanto, que esse tipo de apresentação fornece é o valor da variável em cada posição espacial. Nenhum conhecimento quanto à natureza da distribuição global é agregado. γ G

Distribuição de freqüências A distribuição de freqüências de uma variável é o conjunto das freqüências de todos os diferentes valores observados da variável. O perfil da distribuição de freqüências ajuda a identificar a forma (o padrão, o tipo) de distribuição da variável. Quando a variável for contínua ou quando houver um grande número de valores observados diferentes, deve-se agrupar as observações em intervalos de classe. As freqüências, no caso, estarão associadas não a valores individuais mas ao intervalo como um todo. Para efeitos de cálculos, supõem-se que todos os valores observados dentro de um mesmo intervalo sejam iguais ao respectivo ponto médio.

Dados 5 21 16 35 29 11 28 26 23 Dados 5 11 16 21 23 26 28 29 35 23 35 Tabela de Freqüência Intervalos Freqüência Freqüência Freqüência Freqüência de Classes Absoluta RelativaPercentual Acumulada 0-10 1 0.11 11 1 10-20 2 0.22 22 3 20-30 5 0.56 56 8 30-40 1 0.11 11 9 Total 9 1.00 100

O histograma é um diagrama de colunas justapostas tal que a área de cada retângulo (coluna) é proporcional à freqüência (absoluta ou relativa) da classe particular. Se os intervalos possuírem todos igual amplitude, o histograma é obtido desenhando-se colunas cujas alturas sejam iguais às freqüências (absolutas ou relativas) da classe respectiva. Uma das ferramentas estatísticas mais amplamente utilizadas, permite representar graficamente a tabela de freqüências.

O histograma pode ser construído de maneira a contemplar toda a distribuição dos dados ou somente uma parte que se deseja detalhar; Em caso de dados espalhados em um intervalo de várias ordens de magnitude, o uso de escala logarítmica é recomendado permite que se veja toda a distribuição; Usando intervalos de classes regulares é possível ver toda a distribuição sem perda de detalhes; É útil quando se procura identificar a existência de múltiplas populações.

Medidas descritivas Medidas de tendência central: Média: aritmética, é o centro de gravidade da distribuição da variável. Requer que a variável seja quantitativa e é pouco sensível a variações nos valores centrais, enquanto que (e esta é sua maior desvantagem) é grandemente afetada pelos valores extremos da variável. m = 1 n n i= 1 v i Mediana: é o valor que divide o conjunto de observações exatamente ao meio, de tal maneira que o número de observações maiores do que a mediana seja igual ao número de observações menores do que a mediana.

A aplicação da mediana requer que a variável possa ser ordenável. Uma desvantagem da mediana é ser muito afetada por ligeiras variações nos valores centrais da variável. Em compensação, ela permanece inalterada para mudanças ainda que grandes nos valores extremos da distribuição. Moda: é a medida de tendência central mais simples e é aplicável a qualquer variável, seja quantitativa ou qualitativa. É o valor médio do intervalo de freqüência com maior quantidade de valores e é extremamente sensível a pequenas alterações nos valores observados.

Em distribuições simétricas: Média = Mediana = Moda Em distribuições com assimetria positiva ou para a direita: Moda < Mediana < Média Em distribuições com assimetria negativa ou para a esquerda: Média < Mediana < Moda Assimetria Negativa Simétrica Assimetria Positiva

Medidas de localização: Quartis: Q1: valor no qual temos histograma cumulativo igual a 25% Q3: valor no qual temos histograma cumulativo igual a 75% Mínimo: valor no qual temos histograma cumulativo igual a 0% Máximo: valor no qual temos histograma cumulativo igual a 100% Quantis: q(p) = valor no qual temos histograma cumulativo igual a p% (divide a distribuição em duas partes) M=q(0,5) Q1=q(0,25) Q3=q(0,75) min=q(0) max=q(1)

Medidas de espalhamento: Variância: é a diferença quadrática média entre os valores observados e sua média. É muito sensível a valores extremos e é medida na mesma unidades das amostras ao quadrado. σ 2 = 1 n n i= 1 (v i m) 2 Desvio padrão: é igual à raiz quadrada da variância. É mais freqüentemente usado, já que tem unidade igual à das amostras. Distância interquartil (IQR): não usa a média como centro da distribuição, sendo preferido como medida de espalhamento quando poucos valores extremos influenciam a média. IQR = Q3 Q1

Medidas de forma: Coeficiente de assimetria ( skewness ): extremamente sensível a valores extremos, é dado por: CS = 1 n n i= 1 (v σ 3 i m) 3 CS < 0 CS 0 CS > 0

Medidas de forma: Curtose: Caracterizar a forma da distribuição quanto a seu achatamento Assim, quanto ao seu achatamento, a distribuição normal é mesocúrtica. As distribuições mais achatadas que a normal são ditas platicúrticas e as menos achatadas são ditas leptocúrticas. Esse coeficiente é admensional, sendo menor que 0 para as platicúrticas, = 0 para mesocúrtica e > 0 para leptocúrticas.

Coeficiente de variação (CV): útil como medida de assimetria para distribuições assimétricas positivas com valor mínimo igual a 0. Fornece uma indicação do grau de dificuldade para estimativas locais: < 1 problema simples CV = σ/m 1-2 alguma dificuldade com valores extremos, > 2 valores extremos devem gerar grande dificuldade na estimativa

Valores extremos: valores erráticos que pertencem à solução do problema e devem ter impacto significativo na estimativa. Outliers: valores normalmente elevados que não são relevantes para a solução da meta imposta pelo estudo. O que fazer com os valores extremos? i. Declará-los valores errôneos e removê-los? ii. Classificá-los como pertencentes à outra população? iii. Levantar a hipótese de tamanho diferente da amostra? iv. Estratificação da região? Utilizar parâmetros estatísticos mais robustos, que não sejam afetados pela média. Ex.: mediana, distância entre quartis (IQR). Trabalhar com dados transformados (ex.: log). Cuidado ao retornar os valores ao espaço original dos dados.

Sumário estatístico Vantagens Compacto e portável; Algumas estatísticas correspondem diretamente a parâmetros físicos relevantes; média = concentração esperada Mediana = permeabilidade efetiva Podem ser usados como parâmetros de um modelo de distribuição. Desvantagens Freqüentemente muito condensados; Algumas estatísticas são fortemente influenciadas por valores extremos (m, σ, σ 2, assimetria, curtosidade); Certas estatísticas são afetadas por vazios no meio da distribuição (M, Q 1, Q 3, IQR).