Padronização. Momentos. Coeficiente de Assimetria

Documentos relacionados
Coeficiente de Assimetria e Curtose. Rinaldo Artes. Padronização., tem as seguintes propriedades: Momentos

Coeficiente de Assimetria

Medidas resumo numéricas

EAC-042: Ajustamento de Observações


ASSIMETRIA E CURTOSE

Assimetria e Curtose

ASSIMETRIA E CURTOSE

Inferência Estatística: Conceitos Básicos I

Distribuição Normal. Prof a Dr a Alcione Miranda dos Santos. Abril, 2011

Estatística. 1 Medidas de Tendência Central 2 Medidas de Posição 3 Medidas de Dispersão. Renata Souza

ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTE

Estatística Aplicada a Negócios

Medidas de Posição ou Tendência Central

Distribuição de frequências:

Estatística Aplicada

Estatística Descritiva

5.1 Introdução: As distribuições de freqüências não diferem apenas quanto ao valor médio e a variabilidade, mas também quanto a sua forma.

Métodos Estatísticos Básicos

Aderência. Rinaldo Artes Insper Instituto de Ensino e Pesquisa 2015

SUMÁRIOS DE VARIÁVEIS ALEATÓRIAS CONTINUAS

PROBABILIDADE E ESTATÍSTICA ESTATÍSTICA DESCRITIVA

Estatística Descritiva

Elementos de Estatística

Unidade II ESTATÍSTICA. Prof. Celso Guidugli

Stela Adami Vayego DEST/UFPR

12/06/14. Estatística Descritiva. Estatística Descritiva. Medidas de tendência central. Medidas de dispersão. Separatrizes. Resumindo numericamente

n = 25) e o elemento (pois = 19) e terá o valor 8. Verifique que antes e depois do 19 o elemento, teremos 18 elementos.

Aula 03. Medidas Descritivas de Variáveis Quantitativas. Parte 1 Medidas de Tendência Central

Lista de exercicios 1 Prof.: Marcus Guimaraes Disciplina: Introdução a Estatística Econômica

Errata. Mattos/Konrath/Azambuja Introdução à Estatística - Aplicações em Ciências Exatas 1ª Edição/2017 1ª Impressão

Percentis e Boxplots

SIMULADO da 4ª PROVA BIMESTRAL de INTRODUÇÃO À ESTATÍSTICA

NOTAS DE AULA. Medidas Descritivas. Prof.: Idemauro Antonio Rodrigues de Lara

MEDIDAS DE TENDÊNCIA CENTRAL

Aula 3 MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE.

ESTATÍSTICA DESCRITIVA

ESTATÍSTICA. na Contabilidade Parte 6. Medidas Estatísticas

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

1. Registou-se o número de assoalhadas de 100 apartamentos vendidos num bairro residencial

IND 1115 Inferência Estatística Aula 7

Introdução à Bioestatística Turma Nutrição Aula 3 Análise Descritiva: Medidas de Tendência Central Medidas de Variabilidade

ESTATÍSTICA APLICADA PARA PESQUISA EM MARKETING E COMUNICAÇÃO BASEADO NO LIVRO ESTATÍSTICA FÁCIL ANTÔNIO ARNOT CRESPO

Aula 03. Medidas Descritivas de Variáveis Quantitativas. Parte 1 Medidas de Tendência Central

14. Distribuição de Probabilidade para Variáveis Aleatórias Contínuas

Prof. Lorí Viali, Dr. Prof. Lorí Viali, Dr. PUCRS FAMAT: Departamento de Estatística

Introdução à probabilidade e estatística I

Vimos que é possível sintetizar os dados sob a forma de distribuições de frequência e gráficos. Pode ser de interesse apresentar esses dados através d

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

AULA 2 UNIDADE 1 DISTRIBUIÇÃO DE FREQUÊNCIAS 1.1 INTRODUÇÃO

Teste Qui-quadrado de aderência Rinaldo Artes Insper Instituto de Ensino e Pesquisa 2014

Estatística Descritiva

Distribuição Gaussiana

Representação de dados

Distribuições Contínuas de Probabilidade

Capítulo 1 Estatística Descritiva. Prof. Fabrício Maciel Gomes

x n 3.3. Medidas descritiva de variáveis quantitativas: Medidas de Posição: Considere uma amostra com n observações: x 1, x 2,..., x n.

Unidade III Medidas Descritivas

Prof. Dr. Engenharia Ambiental, UNESP

Medidas de Tendência Central. Introdução Média Aritmética Moda Mediana Análise de Assimetria Separatrizes

ESTATÍSTICA APLICADA PARA PESQUISA EM MARKETING E COMUNICAÇÃO BASEADO NO LIVRO ESTATÍSTICA FÁCIL ANTÔNIO ARNOT CRESPO

Inferência Estatística. Medidas de Tendência Central Medidas de Variação Medidas de Posição

1. Dispersão. 2. Assimetria e Curtose. 3. Concentração e desigualdade

MAIS SOBRE MEDIDAS RESUMO. * é muito influenciada por valor atípico

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Variáveis Aleatórias

ESTATÍSTICA. June 4, UFOP June 4, / 87

3.1 - Medidas de Posição Medidas de Dispersão Quantis Empiricos Box-plots Graficos de simetria 3.

ESTATÍSTICA. Estatística é o conjunto de métodos para a obtenção, organização, resumo, análise e interpretação dos dados.

QUESTÕES DE CONCURSOS PÚBLICOS ESTATÍSTICA DESCRITIVA

Medidas de Dispersão para uma Amostra. Conteúdo: AMPLITUDE VARIÂNCIA DESVIO PADRÃO COEFICIENTE DE VARIAÇÃO

Conceito de Estatística

Bioestatística. October 28, UFOP October 28, / 57

Bioestatística CE001 Prof. Fernando de Pol Mayer Departamento de Estatística DEST Exercícios: medidas resumo Nome: GABARITO

Estatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo:

Aula 2 A distribuição normal

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ CAMPUS PONTA GROSSA METROLOGIA II

Estatística Descritiva

ESTATÍSTICA COMPUTACIONAL AULA 5 ASSIMETRIA E CURTOSE

Medidas de tendência central,dispersão, posição, associação e boxplot

Gráfico de Probabilidades

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ CAMPUS PONTA GROSSA METROLOGIA II

Planejamento e Otimização de Experimentos

Estatísticas Descritivas. Estatística

1) A variância de um conjunto de dados é 16. O desvio padrão será: 1.1 DESVIO MÉDIO ABSOLUTO (Dm) Distribuição de Dados não- Agrupados

3. VARIÁVEIS ALEATÓRIAS

Análise Descritiva de Dados

Probabilidade II. Departamento de Estatística. Universidade Federal da Paraíba

Módulo IV Medidas de Variabilidade ESTATÍSTICA

BIOESTATÍSTICA. Unidade III - Medidas de Tendência Central e de Dispersão

Estatística I Aula 3. Prof.: Patricia Maria Bortolon, D. Sc.

3 3. Variáveis Aleatórias

Introdução à Bioestatística

Matéria: Matemática Assunto: Variância e desvio padrão Prof. Dudan

Cálculo das Probabilidades e Estatística I

TESTES NÃO-PARAMÉTRICOS

Probabilidade Aula 08

(a) Use cinco intervalos e construa um histograma e o polígono de frequência. (b) Determine uma medida de posição central e uma medida de dispersão.

CV de VT - Um assunto recorrente em provas da ESAF

Transcrição:

Padronização Seja X 1,..., X n uma amostra de uma variável com com média e desvio-padrão S. Então a variável Z, definida como, tem as seguintes propriedades: a) b) ( ) c) é uma variável adimensional. Dizemos que a variável Z é uma variável padronizada, construída a partir de X. Momentos Definição 1: Seja um conjunto de dados, definem-se: a) momento amostral de ordem k dos dados ao valor: e b) momento central amostral de ordem k dos dados ao valor: dividir o somatório por ( ). ( ). Alguns autores preferem Coeficiente de Assimetria A Figura 1 traz histogramas estilizados de distribuições que diferem em relação à forma; mais especificamente, ao tipo de assimetria. Nosso objetivo é mensurar o grau de assimetria de um conjunto de dados de modo que possamos intuir o tipo de assimetria e sua intensidade (o quanto de afasta de uma situação simétrica). Na Tabela 1 estão dispostas sete observações de três variáveis hipotéticas. Todas têm a mesma média e mesmo desvio-padrão amostral (pelo menos até a segunda casa decimal), no entanto, elas claramente apresentam comportamentos diferentes. A distribuição dos dados da variável X apresenta assimetria positiva; de Y negativa e a de W é simétrica. Iremos apresentar o desenvolvimento do Coeficiente de Assimetria utilizando esses dados. 1

Simetria Assimetria Positiva Assimetria Negativa Numa distribuição perfeitamente simétrica, se existir um ponto a uma distância a acima da média existirá um outro ponto, localizado à mesma distância abaixo da média. Numa distribuição assimétrica positiva, a tendência é que hajam desvios positivos muito maiores do que os negativos Numa distribuição assimétrica negativa, a tendência é que hajam desvios negativos muito maiores do que os positivos Figura 1: Histogramas estilizados de distribuições com diferentes tipos de assimetria Tabela 1: Conjunto de dados hipotético Observação 1 10 14 8,87 2 10,2 13,8 10 3 10,8 13,2 11 4 11 13 12 5 12 12 13 6 14 10 14 7 16 8 15,13 Média 12 12 12 Desvio-padrão 2,06 2,06 2,06 Obs: O desvio-padrão foi calculado como a raiz quadrada do segundo momento central amostral de ordem 2 dos dados. A intuição que norteia a construção do Coeficiente de Assimetria vem dos histogramas da Figura 1. Os valores a e b indicam desvios em relação à média amostral. Na Tabela 2, apresentamos esses desvios para os dados da Tabela 1. Note que: a) para a variável X, há mais desvios negativos, no entanto, de magnitude menor do que os positivos; b) para a variável Y, ocorre o oposto, há mais desvios positivos, no entanto, de magnitude menor do que os negativos; c) em W, para cada desvio negativo, existe um positivo com o mesmo módulo. Poderíamos, então, propor o cálculo da média dos desvios. Esperaríamos que os sinais dos desvios de maior magnitude predominassem e indicassem o tipo de assimetria presente nos dados. No entanto, pode-se provar que a soma dos desvios em relação á média amostral sempre será zero. Para eliminar esse problema, e ainda preservar os sinais dos desvios, poderíamos elevá-lo a qualquer potência ímpar e então calcular sua média. A Tabela 3 descreve essa operação utilizando-se a potência 3. 2

Tabela 2: Desvios em relação a média dos dados da Tabela 1. 1 10-2 14 2 8,87-3,13 2 10,2-1,8 13,8 1,8 10-2 3 10,8-1,2 13,2 1,2 11-1 4 11-1 13 1 12 0 5 12 0 12 0 13 1 6 14 2 10-2 14 2 7 16 4 8-4 15,1 3,13 Média 12 12 12 DP 2,06 2,06 2,06 Os valores das médias dos desvios ao cubo para X, Y e W são, respectivamente, 7,92; -7,92 e 0. Notem que o sinal indica o tipo de assimetria presente nos dados e que esses valores correspondem ao momento central amostral de ordem 3. Em geral, os momentos, sendo um número ímpar podem ser utilizados como indicadores do tipo de assimetria presente nos dados. Os momentos, no entanto, têm um inconveniente. Eles dependem da unidade de medida dos dados. Imagine uma amostra de preços em dólares convertida para reais. Obviamente nada mudou em termos da assimetria, todavia, os terceiros momentos amostrais não irão coincidir, já que ( ) ( ) ( ) Tabela 3: Desvios em relação a média dos dados da Tabela 1. ( ) ( ) ( ) 1 10-2 -8 14 2 8 8,87-3,1-30,66 2 10,2-1,8-5,83 13,8 1,8 5,832 10-2 -8 3 10,8-1,2-1,73 13,2 1,2 1,728 11-1 -1 4 11-1 -1 13 1 1 12 0 0 5 12 0 0 12 0 0 13 1 1 6 14 2 8 10-2 -8 14 2 8 7 16 4 64 8-4 -64 15,1 3,13 30,66 Média 12 7,92 12-7,92 12 0 DP 2,06 2,06 2,06 Um modo de contornar esse problema é refazer os cálculos utilizando-se os dados padronizados. A Tabela 4 apresenta essas contas. Agora, mesmo que mudemos a escala de uma coluna o terceiro momento amostral da variável padronizada não sofrerá alterações. 3

Tabela 4: Desvios em relação a média dos dados da Tabela 1, dados padronizados. 1 10-0,97-0,92 14,00 0,97 0,92 8,87-1,52-3,53 2 10,2-0,87-0,67 13,80 0,87 0,67 10,00-0,97-0,92 3 10,8-0,58-0,20 13,20 0,58 0,20 11,00-0,49-0,12 4 11-0,49-0,11 13,00 0,49 0,11 12,00 0,00 0,00 5 12 0,00 0,00 12,00 0,00 0,00 13,00 0,49 0,12 6 14 0,97 0,92 10,00-0,97-0,92 14,00 0,97 0,92 7 16 1,94 7,33 8-1,9-7,3 15,1 1,52 3,53 Média 12 0,91 12-0,91 12 0 DP 2,06 2,06 2,06 Definição 2: Seja Assimetria (Amostral) dos dados por um conjunto de dados e,. Define-se o Coeficiente de Alternativamente, pode ser reescrito como ( ) Em resumo temos: a) se a distribuição é assimétrica positiva b) se a distribuição é assimétrica negativa c) se a distribuição é (perfeitamente) simétrica 4

Coeficiente de Curtose A Figura 2 ilustra as funções densidade de probabilidades associadas a duas distribuições, ambas com média zero, desvio-padrão um e simétricas; apesar disso, as distribuições diferem bastante. A Figura 3 destaca o comportamento de uma das caudas dessas distribuições. Note que, em relação à f.d.p. de Y (vermelha), a f.d.p. de X (azul) aproxima-se mais rapidamente de zero. Isso sugere que um conjunto de dados gerado por Y apresentaria um número maior de observações distantes do centro da distribuição do que um conjunto de dados gerados por X. Uma vez que X e Y possuem mesmas médias e variâncias, podemos afirmar que a distribuição de Y possui caudas mais pesadas (maior curtose) do que a de X. Voltando aos conjuntos de dados gerados por X e Y, seria de se esperar que os momentos centrais de ordem par (superior a 2, uma vez que as variâncias são iguais) de Y fossem superiores aos de X, como um efeito direto da quantidade de desvios de maior magnitude (lembre que os momentos nada mais são do que médias e que as médias sofrem grande influência de valores muito elevados). Esse é o raciocínio básico que leva à definição de um coeficiente de curtose. Figura 2: F.d.p. de duas distribuições 5

Figura 3: Destaque da cauda esquerda dos histogramas representados na Figura2. Definição 3: Seja (Amostral) dos dados por um conjunto de dados e,. Define-se o Coeficiente de Curtose Alternativamente, pode ser reescrito como ( ) Os coeficientes de assimetria e curtose são utilizados para verificar se um conjunto de dados podem ter sido gerados a partir de um modelo normal. Assim se, um conjunto de dados foi de fato gerado a partir de uma normal esperaríamos ter próximo a zero e próximo a 3. A partir disso, foi proposta uma alteração no coeficiente de curtose para facilitar sua interpretação. 6

Definição 7: Define-se o coeficiente Excesso de Curtose por Temos que a) se dizemos que a distribuição tem caudas mais leves do que a normal (platicúrtica), b) se dizemos que a distribuição tem caudas com o mesmo peso das de uma normal (mesocúrtica) e c) se dizemos que a distribuição tem caudas mais pesadas do que a normal (leptocúrtica) 7