Coeficiente de Assimetria e Curtose. Rinaldo Artes. Padronização., tem as seguintes propriedades: Momentos

Documentos relacionados
Padronização. Momentos. Coeficiente de Assimetria

Coeficiente de Assimetria

A vida sem reflexão não merece ser vivida Sócrates Disciplina: ESTATÍSTICA e PROBABILIDADE

Aula 1 Assimetria e Curtose

Modelos de Probabilidade e Inferência Estatística

Medidas de Tendência Central. Introdução Média Aritmética Moda Mediana

Medida de Tendência Central

ESTATÍSTICA DESCRITIVA:

Capítulo 4 Inferência Estatística

Medidas de dispersão e assimetria

Variáveis Frequências Gráficos Medidas de Posição Medidas de Dispersão Medidas Complementares Inferência

MEDIDAS DE TENDÊNCIA CENTRAL II

x = xi n x = xifi fi 1. MÉDIA Exercício: Quando a distribuição é simétrica, a média e a mediana coincidem.

Medidas de Localização

Teorema do Limite Central e Intervalo de Confiança

Aula 1 Variáveis aleatórias contínuas

é 4. Portanto, o desvio padrão é 2. Neste caso 100% dos valores da população estão a um desvio padrão da média.

Lição 5 Medidas Descritivas Medidas de Dispersão

BIOESTATÍSTICA. Parte 1 - Estatística descritiva e análise exploratória dos dados

IND 1115 Inferência Estatística Aula 8

Estatística. Slide 0. Ana M. Abreu /07

Medidas de Tendência Central

MEDIDAS DE DISPERSÃO. o grau de variabilidade, ou dispersão, dos valores em torno da média.

I COLIFORMES E ph MÉDIAS ARITMÉTICAS, MÉDIAS GEOMÉTRICAS E MEDIANAS

Análise de Regressão. Notas de Aula

Desvio Padrão ou Erro Padrão

Probabilidade III. Ulisses U. dos Anjos. Departamento de Estatística Universidade Federal da Paraíba. Período

Capítulo 5. Inferência no Modelo de Regressão Simples: Estimação de Intervalos, Teste de Hipóteses e Previsão

MAE116 - Noções de Estatística

Distribuição Binomial e Normal

Stela Adami Vayego DEST/UFPR

a) 2 b) 3 c) 4 d) 5 e) 6

Estatística - exestatmedposic.doc 25/02/09

Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira INEP Ministério da Educação MEC. Cálculo do Conceito ENADE

IBM1018 Física Básica II FFCLRP USP Prof. Antônio Roque Aula 7

SOLUÇÕES N item a) O maior dos quatro retângulos tem lados de medida 30 4 = 26 cm e 20 7 = 13 cm. Logo, sua área é 26 x 13= 338 cm 2.

Retorno e risco de carteiras de investimento. Copyright Pereira, F. I

cuja distribuição é t de Student com n 1 graus de liberdade.

Equação e Inequação do 2 Grau Teoria

Métodos Quantitativos Aplicados

Teste 1. (a) 0.33 (b) 0.50 (c) 0.30 (d) 0.20

Análise de Regressão Linear Simples III

AULA 12 Inferência a Partir de Duas Amostras

Introdução. Ou seja, de certo modo esperamos que haja uma certa

Congruências Lineares

AULA 04 Estimativas e Tamanhos Amostrais

DISCIPLINA DE ESTATÍSTICA

Apresentação de Dados

Teste de Hipótese e Intervalo de Confiança. Parte 2

Unidade Medidas de Posição ou de Tendência Central

Análise estatística. Aula de Bioestatística. 17/9/2008 (2.ª Parte) Paulo Nogueira

CURSO DE MATEMÁTICA BÁSICA PROGRAMA DE EDUCAÇÃO TUTORIAL CENTRO DE ENGENHARIA DA MOBILIDADE

Probabilidade II. Departamento de Estatística. Universidade Federal da Paraíba. Prof. Tarciana Liberal (UFPB) Aula Distribuição Uniforme 11/13 1 / 19

Distribuições Conjuntas (Tabelas de Contingência)

Processos Estocásticos

Estruturas de Repetição

Planejamento e Análise Estatística de Experimentos Fatoriais em blocos completos

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA. Prof. Anderson Rodrigo da Silva

ANÁLISE EXPLORATÓRIA DE DADOS

Testes de variância e Análise de Variância (ANOVA)

Calculando seno(x)/x com o interpretador Hall.

Aula 12 Teste de hipótese sobre proporções amostras grandes

IV Regressão e correlação IV.4. (cont.) Significância Estatística e Regressão Múltipla

Plano da Apresentação. Correlação e Regressão linear simples. Correlação linear. Associação entre hábitos leitura e escolaridade.

Correlação e Regressão linear simples

Avaliação e Desempenho Aula 1 - Simulação

Prova Escrita de MATEMÁTICA A - 12o Ano a Fase

Exercícios Selecionados de Estatística Avançada. Sumário

AULA 11 Experimentos Multinomiais e Tabelas de Contingência

Vamos denotar por C o evento balancete de custo e por O o evento balancete de orçamento. Temos: #O = 4 #C = 3 # = 7 Logo, Pr(O) =4/7 Pr(C) =2/7

CONHECIMENTOS ESPECÍFICOS

2) Escreva um algoritmo que leia um conjunto de 10 notas, armazene-as em uma variável composta chamada NOTA e calcule e imprima a sua média.

Relatório das Provas da 2ª. Fase - Vestibular 2016

Intervalos Estatísticos para Uma Única Amostra

Matemática para a Economia I - 1 a lista de exercícios Prof. - Juliana Coelho

Aula 6 Medidas de Tendência Central

PROVA DE MATEMÁTICA CONCURSO DE ADMISSÃO 2013/2014 1º ANO DO ENSINO MÉDIO

Unidade 5.2. Teste de hipóteses. Hipótese estatística. (uma população) Formulando as hipóteses. Teste de Hipóteses X Intervalo de Confiança

Aula de Exercícios - Variáveis Aleatórias Discretas

Inferência sobre duas proporções

Plano de Ensino PROBABILIDADE E ESTATÍSTICA APLICADA À ENGENHARIA - CCE0292

Determinantes. Matemática Prof. Mauricio José

Conteúdo. 1 Introdução. Histograma do Quinto Sorteio da Nota Fiscal Paraná 065/16. Quinto Sorteio Eletrônico da Nota Fiscal Paraná

Conteúdo. 1 Introdução. Histograma do 1o Sorteio da Nota Fiscal Paraná 152/15. 1º Sorteio Eletrônico da Nota Fiscal Paraná

Ficha de Exercícios nº 2

Estimação. Como definir um estimador. Como obter estimativas pontuais. Como construir intervalos de confiança

Unidade 3 Função Afim

Sobre Desenvolvimentos em Séries de Potências, Séries de Taylor e Fórmula de Taylor

PARTE I - EVOLUÇÃO DO PENSAMENTO. Curso Análise de Dados e Políticas Públicas. Ementa. Metodologia. Plano de Aula

CAPÍTULO 8. de Variância - ANOVA ANOVA. Análise

Como rodar a regressão no gretl. Usando o Console para calcular elasticidade. Elasticidade. Usando o Console para calcular predição

Números inteiros Z ± 7º Ano / 2013

Aula 11 Teste de hipótese sobre a média de uma população normal - σ 2 conhecida

Contabilometria. Análise Discriminante

Aula 12: Correlação e Regressão

Estatística e Probabilidade

Erros e Incertezas. Rafael Alves Batista Instituto de Física Gleb Wataghin Universidade Estadual de Campinas (Dated: 10 de Julho de 2011.

Estatística II Aula 4. Prof.: Patricia Maria Bortolon, D. Sc.

1. Estatística Descritiva

Teoria Básica e o Método Simplex. Prof. Ricardo Santos

Transcrição:

Coeficiente de Assimetria e Curtose Rinaldo Artes 2014 Padronização Seja X uma variável aleatória com E(X)=µ e Var(X)=σ 2. Então a variável aleatória Z, definida como =, tem as seguintes propriedades: a) =0. b) =1. c) é uma variável adimensional. Dizemos que a variável Z é uma variável padronizada, construída a partir de X. Momentos Definição 1: Seja X uma variável aleatória, definem-se: a) momento de ordem k de X ao valor = e b) momento central de ordem k ao valor = Definição 2: Seja,,, um conjunto de dados, definem-se: a) momento amostral de ordem k dos dados ao valor: = e b) momento central amostral de ordem k dos dados ao valor: =. Alguns autores preferem dividir o somatório por 1. Coeficiente de Assimetria A Figura 1 traz histogramas estilizados de distribuições que diferem em relação à forma; mais especificamente, ao tipo de assimetria. Nosso objetivo é mensurar o grau de assimetria de um conjunto de dados de modo que possamos intuir o tipo de assimetria e sua intensidade (o quanto de afasta de uma situação simétrica). Na Tabela 1 estão dispostas sete observações de três variáveis hipotéticas. Todas têm a mesma média e mesmo desvio-padrão amostral (pelo menos até a segunda casa decimal), no entanto, elas claramente apresentam 1

comportamentos diferentes. A distribuição dos dados da variável X apresenta assimetria positiva; de Y negativa e a de W é simétrica. Iremos apresentar o desenvolvimento do Coeficiente de Assimetria utilizando esses dados. Simetria Assimetria Positiva Assimetria Negativa Numa distribuição perfeitamente simétrica, se existir um ponto a uma distância a acima da média existirá um outro ponto, localizado à mesma distância abaixo da média. Numa distribuição assimétrica positiva, a tendência é que hajam desvios positivos muito maiores do que os negativos Numa distribuição assimétrica negativa, a tendência é que hajam desvios negativos muito maiores do que os positivos Figura 1: Histogramas estilizados de distribuições com diferentes tipos de assimetria Tabela 1: Conjunto de dados hipotético Observação 1 10 14 8,87 2 10,2 13,8 10 3 10,8 13,2 11 4 11 13 12 5 12 12 13 6 14 10 14 7 16 8 15,13 Média 12 12 12 Desvio-padrão 2,06 2,06 2,06 Obs: O desvio-padrão foi calculado como a raiz quadrada do segundo momento central amostral de ordem 2 dos dados. A intuição que norteia a construção do Coeficiente de Assimetria vem dos histogramas da Figura 1. Os valores a e b indicam desvios em relação à média amostral. Na Tabela 2, apresentamos esses desvios para os dados da Tabela 1. Note que: a) para a variável X, há mais desvios negativos, no entanto, de magnitude menor do que os positivos; b) para a variável Y, ocorre o oposto, há mais desvios positivos, no entanto, de magnitude menor do que os negativos; c) em W, para cada desvio negativo, existe um positivo com o mesmo módulo. Poderíamos, então, propor o cálculo da média dos desvios. Esperaríamos que os sinais dos desvios de maior magnitude predominassem e indicassem o tipo de assimetria presente nos dados. No entanto, pode-se provar que a soma dos desvios em relação á média amostral sempre será zero. Para eliminar esse problema, e ainda preservar os 2

sinais dos desvios, poderíamos elevá-lo a qualquer potência ímpar e então calcular sua média. A Tabela 3 descreve essa operação utilizando-se a potência 3. Tabela 2: Desvios em relação a média dos dados da Tabela 1. 1 10-2 14 2 8,87-3,13 2 10,2-1,8 13,8 1,8 10-2 3 10,8-1,2 13,2 1,2 11-1 4 11-1 13 1 12 0 5 12 0 12 0 13 1 6 14 2 10-2 14 2 7 16 4 8-4 15,1 3,13 Média 12 12 12 DP 2,06 2,06 2,06 Os valores das médias dos desvios ao cubo para X, Y e W são, respectivamente, 7,92; -7,92 e 0. Notem que o sinal indica o tipo de assimetria presente nos dados e que esses valores correspondem ao momento central amostral de ordem 3. Em geral, os momentos, sendo >1 um número ímpar podem ser utilizados como indicadores do tipo de assimetria presente nos dados. Os momentos, no entanto, têm um inconveniente. Eles dependem da unidade de medida dos dados. Imagine uma amostra de preços em dólares convertida para reais. Obviamente nada mudou em termos da assimetria, todavia, os terceiros momentos amostrais não irão coincidir, já que = â ó. Tabela 3: Desvios em relação a média dos dados da Tabela 1. 1 10-2 -8 14 2 8 8,87-3,1-30,66 2 10,2-1,8-5,83 13,8 1,8 5,832 10-2 -8 3 10,8-1,2-1,73 13,2 1,2 1,728 11-1 -1 4 11-1 -1 13 1 1 12 0 0 5 12 0 0 12 0 0 13 1 1 6 14 2 8 10-2 -8 14 2 8 7 16 4 64 8-4 -64 15,1 3,13 30,66 Média 12 7,92 12-7,92 12 0 DP 2,06 2,06 2,06 Um modo de contornar esse problema é refazer os cálculos utilizando-se os dados padronizados. A Tabela 4 apresenta essas contas. Agora, mesmo que mudemos a escala de uma coluna o terceiro momento amostral da variável padronizada não sofrerá alterações. 3

Tabela 4: Desvios em relação a média dos dados da Tabela 1, dados padronizados. 1 10-0,97-0,92 14,00 0,97 0,92 8,87-1,52-3,53 2 10,2-0,87-0,67 13,80 0,87 0,67 10,00-0,97-0,92 3 10,8-0,58-0,20 13,20 0,58 0,20 11,00-0,49-0,12 4 11-0,49-0,11 13,00 0,49 0,11 12,00 0,00 0,00 5 12 0,00 0,00 12,00 0,00 0,00 13,00 0,49 0,12 6 14 0,97 0,92 10,00-0,97-0,92 14,00 0,97 0,92 7 16 1,94 7,33 8-1,9-7,3 15,1 1,52 3,53 Média 12 0,91 12-0,91 12 0 DP 2,06 2,06 2,06 Definição 3: Seja,,, um conjunto de dados e = Assimetria (Amostral) dos dados por =., =1,2,,. Define-se o Coeficiente de Alternativamente, pode ser reescrito como = =. Em resumo temos: a) se a distribuição é assimétrica positiva >0; b) se a distribuição é assimétrica negativa <0; c) se a distribuição é (perfeitamente) simétrica =0. Definição 4: Seja X uma variável aleatória com terceiro momento finito. Define-se o Coeficiente de Assimetria (Populacional) de X por = =. 4

Coeficiente de Curtose A Figura 2 ilustra as funções densidade de probabilidades associadas a duas distribuições, ambas com média zero, desvio-padrão um e simétricas; apesar disso, as distribuições diferem bastante. A Figura 3 destaca o comportamento de uma das caudas dessas distribuições. Note que, em relação à f.d.p. de Y (vermelha), a f.d.p. de X (azul) aproxima-se mais rapidamente de zero. Isso sugere que um conjunto de dados gerado por Y apresentaria um número maior de observações distantes do centro da distribuição do que um conjunto de dados gerados por X. Uma vez que X e Y possuem mesmas médias e variâncias, podemos afirmar que a distribuição de Y possui caudas mais pesadas (maior curtose) do que a de X. Voltando aos conjuntos de dados gerados por X e Y, seria de se esperar que os momentos centrais de ordem par (superior a 2, uma vez que as variâncias são iguais) de Y fossem superiores aos de X, como um efeito direto da quantidade de desvios de maior magnitude (lembre que os momentos nada mais são do que médias e que as médias sofrem grande influência de valores muito elevados). Esse é o raciocínio básico que leva à definição de um coeficiente de curtose. Figura 2: F.d.p. de duas distribuições 5

Figura 3: Destaque da cauda esquerda dos histogramas representados na Figura2. Definição 5: Seja,,, um conjunto de dados e = (Amostral) dos dados por =., =1,2,,. Define-se o Coeficiente de Curtose Alternativamente, pode ser reescrito como = =. Definição 6: Seja X uma variável aleatória com quarto momento finito. Define-se o Coeficiente de Curtose (Populacional) de X por = =. Os coeficientes de assimetria e curtose são utilizados para verificar se um conjunto de dados podem ter sido gerados a partir de uma distribuição normal. Se uma v.a. segue uma distribuição normal, então =0 e =3. Assim se, um conjunto de dados foi de fato gerado a partir de uma normal esperaríamos ter próximo a zero e próximo a 3. A partir disso, foi proposta uma alteração no coeficiente de curtose para facilitar sua interpretação. 6

Definição 7: Define-se o coeficiente Excesso de Curtose por Temos que = 3. a) se <0 dizemos que a distribuição tem caudas mais leves do que a normal (platicúrtica), b) se =0 dizemos que a distribuição tem caudas com o mesmo peso das de uma normal (mesocúrtica) e c) se >0 dizemos que a distribuição tem caudas mais pesadas do que a normal (leptocúrtica) Teste de Jarque-Bera O teste de aderência de Jarque-Bera pode ser utilizado para verificar se um conjunto de dados segue uma distribuição normal. A estatística do teste é dada por = 6 +0,25 Sob a hipótese de normalidade dos dados segue uma distribuição qui-quadrado com dois graus de liberdade. Quanto maior for o valor dessa estatística, menor a evidência de que a distribuição é de fato normal. 7