Estatísticas Descritivas. Estatística

Documentos relacionados
Medidas Descritivas de Posição, Tendência Central e Variabilidade

Elementos de Estatística

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Introdução à Bioestatística Turma Nutrição Aula 3 Análise Descritiva: Medidas de Tendência Central Medidas de Variabilidade

Análise Descritiva de Dados

Bioestatística CE001 Prof. Fernando de Pol Mayer Departamento de Estatística DEST Exercícios: medidas resumo Nome: GABARITO

Estatística Descritiva

Fernando de Pol Mayer

PROBABILIDADE E ESTATÍSTICA ESTATÍSTICA DESCRITIVA

Aula 03. Medidas Descritivas de Variáveis Quantitativas. Parte 1 Medidas de Tendência Central

Estatística Computacional Profª Karine Sato da Silva

Vimos que é possível sintetizar os dados sob a forma de distribuições de frequência e gráficos. Pode ser de interesse apresentar esses dados através d

ESTATÍSTICA DESCRITIVA. Aula 07 Estatística Descritiva

Distribuição de frequências:

Módulo IV Medidas de Variabilidade ESTATÍSTICA

AULA 2 UNIDADE 1 DISTRIBUIÇÃO DE FREQUÊNCIAS 1.1 INTRODUÇÃO

Estatística Aplicada a Negócios

MAIS SOBRE MEDIDAS RESUMO. * é muito influenciada por valor atípico

2. Estatística Descritiva

Medidas de dispersão. 23 de agosto de 2018

Bioestatística Aula 2

CURSO DE SPSS AULA 2 MEDIDAS DESCRITIVAS. UFBA/FACED José Albertino Lordello Sheila Regina Pereira

Capítulo 3 Estatísticas para Descrição, Exploração e Comparação de Dados. Seção 3-1 Visão Geral. Visão Geral. Estatísticas Descritivas

MEDIDAS DE DISPERSÃO

Estatística Descritiva

Notas de Aula. Estatística Elementar. by Mario F. Triola. Tradução: Denis Santos

BIOESTATÍSTICA AULA 2. Anderson Castro Soares de Oliveira Jose Nilton da Cruz. Departamento de Estatística/ICET/UFMT

Estatística Aplicada

Prof. Dr. Lucas Santana da Cunha de abril de 2018 Londrina

Medidas resumo numéricas

MEDIDAS DE POSIÇÃO. Lucas Santana da Cunha Universidade Estadual de Londrina. 26 de abril de 2017

Medidas de Centralidade

Medidas de Posição ou Tendência Central

Lista de Exercícios Cap. 2

Departamento de Estatística

Medidas resumo. Wagner H. Bonat Elias T. Krainski Fernando P. Mayer

ESTATÍSTICA. Estatística é o conjunto de métodos para a obtenção, organização, resumo, análise e interpretação dos dados.

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

25/08/2016. Estatística. Estatística. Medidas Estatísticas Medidas de Posição. Mariele Bernardes. Mariele Bernardes

1 Medidas de dispersão


Medidas de localização (ou de tendência central) Média: definida como o centro de massa (ou ponto de equilíbrio) do conjunto.

MEDIDAS DE POSIÇÃO. Lucas Santana da Cunha 10 de maio de Universidade Estadual de Londrina


1. Registou-se o número de assoalhadas de 100 apartamentos vendidos num bairro residencial

Medidas de Centralidade

Estatística. 1 Medidas de Tendência Central 2 Medidas de Posição 3 Medidas de Dispersão. Renata Souza

n = 25) e o elemento (pois = 19) e terá o valor 8. Verifique que antes e depois do 19 o elemento, teremos 18 elementos.

2) Dados os valores a seguir, , determinar a moda dos mesmos.

Medidas de Variação ou Dispersão

Coeficiente de Assimetria

Unidade III Medidas Descritivas

x n 3.3. Medidas descritiva de variáveis quantitativas: Medidas de Posição: Considere uma amostra com n observações: x 1, x 2,..., x n.

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

Medidas de Dispersão ou variabilidade

Tutorial para o desenvolvimento das Oficinas

Estatística Descritiva (I)

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

3 Estatística p/ Descrição, Exploração e Comparação de Dados (Triola 10 a ed.)

Aula 4: Medidas Resumo

UNIVERSIDADE FEDERAL DA PARAÍBA MEDIDAS DESCRITIVAS

Prof. Dr. Engenharia Ambiental, UNESP

Estatística Descritiva (I)

MEDIDAS DE DISPERSÃO

Revisão de estatística descritiva

Universidade Federal de Lavras Departamento de Estatística Prof. Daniel Furtado Ferreira 4 a Aula Prática Medidas de Dispersão

Estatística I Aula 3. Prof.: Patricia Maria Bortolon, D. Sc.

Medidas de Tendência Central. Introdução Média Aritmética Moda Mediana Análise de Assimetria Separatrizes

Estatística

SCC0173 Mineração de Dados Biológicos

PROBABILIDADE E ESTATÍSTICA. Profa. Dra. Yara de Souza Tadano

Estatística Descritiva

Métodos Estatísticos Básicos

12/06/14. Estatística Descritiva. Estatística Descritiva. Medidas de tendência central. Medidas de dispersão. Separatrizes. Resumindo numericamente

Introdução à Estatística Estatística Descritiva 22

Medidas de Posição. Tendência Central. É um valor que representa uma entrada típica, ou central, de um conjunto de dados. média. mediana.

Introdução à Probabilidade e Estatística I

GRÁFICOS ESTATÍSTICOS

Métodos Estocásticos da Engenharia II

Probabilidade e Estatística

Estatística Aplicada. UNIVERSIDADE ESTÁCIO DE SÁ-RECIFE 2013 Prof: Wildson Cruz

Bioestatística Medidas de tendência central, posição e dispersão PARTE II Roberta de Vargas Zanini 11/05/2017

Transcrição:

Estatística

Estatísticas descritivas: usadas para mostrar/descrever algumas informações da amostra, ou seja, servem para fazer um resumo ou descrição dos dados. Não consideram a origem dos dados. Exemplos: média, variância, dp, mín, máx etc

Definition (Média) Dado um conjunto de dados x 1,..., x n, a média (ou valor médio) dos dados é dado por: x = x 1 +... + x n n = 1 n n x i i=1 Fact A média dos dados fornece uma medida do centro dos dados, um valor típico ou representativo da amostra

Definition (Variância e Desvio-Padrão) A variância dos dados é definida como: s 2 = 1 n n 1 (x i x) 2 i=1 onde x é a média definida acima. E o desvio-padrão (dp) é definido como: s = s 2 Fact A variância e dp mostram quão variável são os valores da amostra

Remark O uso no denominador de n 1, e não n, servirá para que s 2 atenda a a determinadas propriedades estatísticas. Mas, um dos motivos é de caráter matemático: perda de grau de liberdade. Cálculo do numerador da variância: os n desvios (x i x).

No entanto, vale a seguinte propriedade algébrica: n (x i x) = i=1 = n x n i=1 = n x n x = 0, x n i=1 x i n i=1 x ( x = n i=1 x i n n x = n i=1 x i ) os desvios devem somar zero: uma restrição natural.

Conhecendo os n 1 primeiros desvios conseguimos obter o n ésimo : (x 1 x) +... + (x n x) = 0 (x n x) = (x 1 x)... (x n 1 x), n 1 desvios são livres para variar e, o n ésimo não tem tal liberdade.

Remark A variância pode ser mensurada de forma alternativa: n (x i x) 2 = i=1 = = = n i=1 n i=1 ( x 2 i 2x i x + x 2) x 2 i 2 x n i=1 x i + n i=1 x 2 n xi 2 2 xn x + n x 2 n = xi 2 n x 2 i=1 i=1 ( n i=1 x i n xi 2 n i=1 n ) 2 = n xi 2 ( n i=1 x i ) 2 i=1 n

Remark Logo, a variância pode ser mensurada como: ( n ) s 2 = 1 xi 2 n x 2 = n i=1 xi 2 n 1 i=1 n 1 n n 1 x 2 ou ( n ) s 2 = 1 xi 2 ( n i=1 x i ) 2 n 1 i=1 n

Example Suponha que tenhamos coletado alguns dados de 100 pessoas com mais de 25 anos e que já tenham terminado o período de escolarização. E foi perguntado quantos anos de estudo elas tinham, de 0 a até 15 ou mais anos de estudo. E constatou-se que: 15 pessoas têm 0 anos de estudo, 3 tem 1 ano, 5 tem 2 anos, 7 tem 3 anos, 15 tem 4 anos, 8 tem 5 anos, 3 tem 6 anos, 3 tem 7 anos, 10 tem 8 anos, 2 tem 9 anos, 2 tem 10 anos, 20 tem 11 anos, nenhuma tem entre 12 e 14 anos e 7 tem 15 ou mais anos. Um artifício simples para resumir os dados é montar uma tabela de frequência:

Example Sejam as informações sobre os salários 36 indivíduos (em múltiplos do salário mínimo - SM): 4 6.86 8.74 10.53 13.23 16.22 4.56 7.39 8.95 10.76 13.60 16.61 5.25 7.59 9.13 11.06 13.85 17.26 5.73 7.44 9.35 11.59 14.69 18.75 6.26 8.12 9.77 12.00 14.71 19.40 6.66 8.46 9.80 12.79 15.99 23.30

Example Classes de salários Freqüência absoluta n i Freqüência relativa f i =n i /n [4 8) 10 0.2778 [8 12) 12 0.3333 [12 16) 8 0.2222 [16, 20) 5 0.1389 [20, 24) 1 0.0278 Total (n) 36 1

Example x = 11.12 s = s 2 = 21.05 = 4.59 x fornece um valor representativo bem justo da região central dos dados (21 valores estão abaixo da média e 15 estão acima). Verificamos que estes dados são relativamente dispersos: 24 das 36 observações (2/3) se encontram no intervalo [( x σ), ( x + σ)] = [6.53, 15.71].

Example Sejam os seguintes dados de renda bruta (salários, juros, dividendos etc) de 42 casais que vivem na mesma cidade (em milhares de dólares): 1.2 29.3 11.6 14.5 26.8 28.1 17.0 8.2 39.4 151.2 8.2 17.8 23.2 20.6 157.4 10.1 25.8 26.8 36.0 20.1 10.3 92.3 8.0 17.8 74.7 8.8 16.2 7.7 19.4 19.3 125.2 10.7 100.2 47.6 21.2 37.2 19.6 26.0 37.7 29.0 150.1 13.4

Example Intervalo Freq.Abs. Freq.Rel. Freq. Rel. (em $) (n i ) (f i ) (f i 100%) [0; 10000) 6 0.1429 14.29 [10000; 20000) 13 0.3095 30.95 [20000; 30000) 11 0.2619 26.19 [30000; 50000) 5 0.1190 11.90 [50000; 160000) 7 0.1667 16.67 Total 42 1 100

Example A altura das barras deve ser ajustada se a área é para ser proporcional à amplitude do intervalo. Larson (1982) propõe um ajuste simples: as duas últimas classes são as que tem tamanho desigual e por isso as frequências relativas devem ser multiplicadas por (10, 000/20, 000) e (10, 000/110, 000), respectivamente. figure6.1.3 page335

Example Outra forma, adotada por Bussab e Morettin (2010): normalizar as freqüências (absolutas e relativas) em termos da amplitude do intervalo, obtendo assim, a densidade das freqüências de cada classe. A densidade indicará a concentração por unidade da variável. Intervalo Freq. Freq.Relativa Amp. Densidade (em $1k) Abs.(n i ) f i.100% i n i / i f i.100%/ i [0; 10) 6 14.29 10000 0.0006 0.00143 [10; 20) 13 30.95 10000 0.0013 0.00309 [20; 30) 11 26.19 10000 0.0011 0.00262 [30; 50) 5 11.90 20000 0.00025 0.00059 [50; 160) 7 16.67 110000 0.00006 0.00015 Total 42 100

Example Podemos analisar o histograma. O conjunto de dados é fortemente assimétrico à direita. x = 37.28 não é um bom valor representativo, pois 32 valores estão abaixo da média e apenas 10 valores acima. Ela é influenciada fortemente por valores extremamente altos o que faz com que seu valor não seja bem centrado nos dados.

Example s = 41.35. dados são pouco dispersos: 36 das 42 observações (85%) se encontram no intervalo [( x σ), ( x + σ)] = [6.53, 15.71]. Poucas observações são valores muito acima da média (maior do que 90), o que fazem com que o dp seja alto. Assim, da mesma forma, valores muito altos tende a aumentar muito o desvio-padrão

Definition (Estatísticas de ordem) Estatísticas de ordem são definidas como: x (j) = j ésima observação maior, j = 1,..., n. Remark Assim, temos necessariamente que: x (1) x (2)... x (n) Remark As estatísticas x (1) e x (n) são o mínimo e máximo do conjunto de dados.

Definition (Mediana) Outra medida de posição central dos dados é a mediana que é definida como: { x (n+1)/2, se n for ímpar m = ) (x (n/2) + x (n+2)/2 /2, se n for par Definition (Moda) É a observação mais frequente em um conjunto de dados.

Remark Ao contrário da média, a mediana e a moda não são influenciadas pela presença de outliers. Remark A moda pode não existir (amodal) ou pode não ser única (bimodal ou multimodal). Remark Muitas vezes, não existe moda para uma variável contínua, como nos Exemplos 6 e 9. Nestes casos, a moda é definida através da classe (intervalo) modal, ou seja, a classe que apresenta a maior freqüência. E o valor da moda é o ponto médio da classe (intervalo). O valor da moda pode ser sensível à escolha do tamanho do intervalo.

Remark Em geral, para distribuições simétricas, temos que: x = m e no caso de ser unimodal, ainda é válido: x = m = mod a Também, em geral, para distribuições assimétricas à direita (ou positiva) vale: mod a < m < x

Remark Uma definição mais geral para assimetria é dada por visualização gráfica: (i) Assimetria à direita: a cauda direita da distribuição (histograma) é mais comprida e a massa da distribuição está concentrada à esquerda. (ii) Assimetria à esquerda: definição análoga, basta trocar direita por esquerda e vice-versa. Uma definição mais formal utiliza uma medida numérica que é utilizada é o coeficiente de assimetria definido como: γ = 1 n n i=1 (x i x) 3 s 3. Assim, se γ > 0, a distribuição é assimétrica à direita e se γ < 0 é assimétrica à esquerda.

Definition (Amplitude Interquartil) A amplitude interquartil é definida como: q = x.75 x.25 onde x.25 é o 1 o quartil (ou seja, quando 25% dos dados estão abaixo deste valor) e x.75 é o 3 o quartil (ou seja, quando 75% dos dados estão acima deste valor). Remark A amplitude interquartil é definida para ser o comprimento de um intervalo que inclua aproximadamente 50% dos dados.

Remark x.25 será o maior número nos dados tal que o número de valores menores ou iguais a ele não seja maior do que n/4. Da mesma forma, x.75 é o menor valor nos dados tal que o número de valores maiores ou iaguais a ele não seja maior do que n/4. Remark Quanto mais disperso são os dados, maior será o valor de q.

Vimos também que o desvio-padrão é suscetível a magnitude e unidade de medida dos dados. Uma medida adimensional, que capta a variabilidade dos dados é o coeficiente de variação: Definition (Coeficiente de Variação) CV = s/ x, para x = 0.

Remark O CV é uma medida de dispersão do conjunto de dados em relação à média. Quanto menor o CV, mais homogêneos são os dados. O CV é geralmente expresso em percentual. Alguns livros adotam cortes entre 0.2 a 0.25 (20 a 25%) para definir se os dados são homogêneos. Mas isso depende muito das características dos dados. No Exemplo 6 do salário: CV = 4.59 11.12 = 0.41 Por isso, o CV, muitas vezes, é mais utilizado para comparar a variabilidade de dois ou mais conjunto de dados.

Example Para obter as medidas alternativas devemos primeiramente ranquear os dados: 1.2 7.7 8.0 8.2 8.2 8.8 10.1 10.3 10.7 11.6 13.4 14.5 16.2 17.0 17.8 17.8 19.3 19.4 19.6 20.1 20.6 21.2 23.2 25.8 26.0 26.8 26.8 28.1 29.0 29.3 36.0 37.2 37.7 39.4 47.6 74.7 92.3 100.2 125.2 150.1 151.2 157.4

Example min = x (1) = 1.2 max = x (42) = 157.4 ) m = (x (21) + x (22) /2 = (20.6 + 21.2) /2 = 20.9 A moda para os dados acima não existe. Se considerarmos a tabela de freqüência, veremos que o segundo intervalo [10000, 20000) é o de menor amplitude e que têm maior freqüência absoluta. Assim, considerando a divisão por intervalos, a moda será 15000, ou seja, 15 em milhares.

Example Segundo a regra que vimos, esta distribuição seria assimétrica à direita, pois x > m > Moda. Calculando o coeficiente de assimetria: γ = 1 n n i=1 (x i x) 3 s 3 = 129816.37 = 1.836 > 0, (41.35)

Example Para obter a amplitude interquartil, devemos encontar primeiramente o 1 o e 3 o quartis. Primeiramente, dividimos o tamanho amostral por quatro: n/4 = 42/2 = 10.5. Assim: A amplitude será: x.25 = x (10) = 11.6 x.75 = x (33) = 37.7 q = x (33) x (10) = 37.7 11.6 = 26.1

Example Por fim, calculando o CV, obtemos: CV = s µ = 41.35 37.28 = 1.11 ou seja, os dados são muito heterogêneos devido a presença de outliers.