Exploração e Transformação de dados

Documentos relacionados
Stela Adami Vayego DEST/UFPR

Estatística Aplicada a Negócios

AULA 02 Distribuição de probabilidade normal

14. Distribuição de Probabilidade para Variáveis Aleatórias Contínuas

Distribuição de frequências:

Inferência Estatística: Conceitos Básicos II

Tutorial para o desenvolvimento das Oficinas

ESTATÍSTICA. x(s) W Domínio. Contradomínio

Capítulo 5 Distribuições de probabilidade normal Pearson Prentice Hall. Todos os direitos reservados.

A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE:

Inferência Estatística: Conceitos Básicos I

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

AULA 02 Distribuição de Probabilidade Normal

Prof. Dr. Engenharia Ambiental, UNESP

Bioestatística Básica

Medidas de Posição ou Tendência Central

ESTATÍSTICA DESCRITIVA

APONTAMENTOS DE SPSS

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

Unidade III Medidas Descritivas

Revisão de distribuições de probabilidades contínuas (Capítulo 6 Levine)

AULA 07 Inferência a Partir de Duas Amostras

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

ASSIMETRIA E CURTOSE

Métodos Experimentais em Ciências Mecânicas

Coeficiente de Assimetria

5 Distribuição normal de probabilidade. Estatística Aplicada Larson Farber

ESTATÍSTICA. Estatística é o conjunto de métodos para a obtenção, organização, resumo, análise e interpretação dos dados.

ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTE

Estatística Descritiva

ESTATÍSTICA DESCRITIVA. Aula 07 Estatística Descritiva

ENGENHARIA DA QUALIDADE A ENG AULA 2 REVISÃO DE ESTATÍSTICA

Elementos de Estatística

Distribuição Normal. Apontamentos para a disciplina de Estatística I. Tomás da Silva, 2003/2006

Distribuição Gaussiana. Verificação da Suposição de Normalidade dos Dados

Estatística 1. Resumo Teórico

Estatística Descritiva

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

ESTATÍSTICA COMPUTACIONAL AULA 5 ASSIMETRIA E CURTOSE

Correlação e Regressão

Distribuição de frequências. Prof. Dr. Alberto Franke

Modelos Lineares Distribuições de Probabilidades Distribuição Normal Teorema Central do Limite. Professora Ariane Ferreira

Lucas Santana da Cunha 12 de julho de 2017

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia

1 Introdução. 2 Variáveis Aleatórias Discretas (VAD)

Importância da estatística 17. O que é a Estatística? 18

Medidas de Dispersão ou variabilidade

Estatística descritiva

Estimação e Testes de Hipóteses

Aula 2 Planejamento e Análise de Experimentos

b) Variáveis Aleatórias Contínuas

Estatística Aplicada


Estatística Indutiva

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

Conceito de Estatística

ESTATÍSTICA DESCRITIVA APLICADA NA SAÚDE. Hospital Universitário Prof. Edgard Santos UFBA Unidade de Planejamento Julho de 2016

PROBABILIDADE E ESTATÍSTICA ESTATÍSTICA DESCRITIVA

MÉTODOS QUANTITATIVOS APLICADOS. Prof. Danilo Monte-Mor

ASSIMETRIA E CURTOSE

Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina.

ANÁLISE DOS RESÍDUOS. Na análise de regressão linear, assumimos que os erros E 1, E 2,, E n satisfazem os seguintes pressupostos:

Estatística I Aula 3. Prof.: Patricia Maria Bortolon, D. Sc.

SUMÁRIOS DE VARIÁVEIS ALEATÓRIAS CONTINUAS

Aula 3 MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE.

I.1. Seleccionado um passageiro ao acaso, qual a probabilidade de ter idade no intervalo [20 a 50) anos e ser fraudulento?

CONHECIMENTOS ESPECÍFICOS

Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades sobre amostra

ESTATÍSTICA. na Contabilidade Parte 6. Medidas Estatísticas

Métodos Estatísticos Básicos

Aula 4: Medidas Resumo

ÍNDICE. Variáveis, Populações e Amostras. Estatística Descritiva PREFÁCIO 15 NOTA À 3ª EDIÇÃO 17 COMO USAR ESTE LIVRO? 21 CAPÍTULO 1 CAPÍTULO 2

Distribuição Amostral e Estimação Pontual de Parâmetros

Distribuições Contínuas de Probabilidade

Métodos Experimentais em Ciências Mecânicas

1 Introdução aos Métodos Estatísticos para Geografia 1

Capítulo 3: Elementos de Estatística e Probabilidades aplicados à Hidrologia

MAIS SOBRE MEDIDAS RESUMO. * é muito influenciada por valor atípico

Escola Politécnica da USP Engenharia de Petróleo e Gás DISTRIBUIÇÃO DE PROBABILIDADE CONTÍNUA. Aulas 10, 11,12 e 13 - Prof. Regina Meyer Branski

Capítulo 3. Introdução à Probabilidade E à Inferência Estatística

Estatística I Aula 8. Prof.: Patricia Maria Bortolon, D. Sc.

EXERCÍCIOS SOBRE TESTE T

Inferência Estatística:

b) Variáveis Aleatórias Contínuas

PROBABILIDADES: VARIÁVEL ALEATÓRIA CONTÍNUA E DISTRIBUIÇÃO NORMAL

Transcrição:

Exploração e Transformação de dados

A DISTRIBUIÇÃO NORMAL

Normal 99% 95% 68% Z-score -3,29-2,58-1,96 1,96 2,58 3,29

Normal A distribuição normal corresponde a um modelo teórico ou ideal obtido a partir de uma equação matemática, e não de uma pesquisa e coleta de dados. Pode ser usada para descrever distribuições de escores, interpretar o desvio-padrão e fazer afirmações probabilísticas. É fundamental para a tomada de decisão estatística, mais especificamente, para generalização de resultados de amostras para populações.

Normal Características da Distribuição Normal 1ª) A variável aleatória poderá assumir qualquer valor real. 2ª) A apresentação gráfica da distribuição normal corresponde a uma curva em forma de sino, denominada também de Curva de Gauss ou Curva de Moivre. 3ª) É simétrica em torno da média: obtém-se a mesma ordenada (Y) e o mesmo valor de probabilidade para dois valores de x.

Normal Características da Distribuição Normal (continuação) Curva Normal ou Gaussiana.

Normal Características da Distribuição Normal (continuação) 4ª) A curva normal admite uma única ordenada máxima (pico), situada na média, e assim as medidas de tendência central (média, moda e mediana) são iguais. 5ª) Quanto mais os valores se afastam da média (pico) tendem a se tornar mais raros.

Normal Características da Distribuição Normal (continuação) 6ª) A distribuição normal, em sua representação gráfica, apresenta sempre dois pontos de inflexão (modificação da tendência em relação ao eixo das abscissas) e é assintótica em relação ao eixo da variável x (não toca o eixo x varia de - a + ).

Normal Características da Distribuição Normal (continuação) Curva Normal: assintótica e com dois pontos de inflexão. Ponto de inflexão Ponto de inflexão Assíntota (- ) Assíntota (+ )

Normal Características da Distribuição Normal (continuação) 7ª) A área total sob a curva corresponde à proporção 1 ou à porcentagem 100%. 100% Área total sob a curva

Normal Características da Distribuição Normal (continuação) 8ª) A probabilidade de ocorrer valor maior ou menor que a média é equivalente, sendo igual a 0,50 ou 50%. 50% 50%

Normal Importância da Distribuição Normal 1ª) As medidas originárias de diversos processos aleatórios seguem essa distribuição (é um ideal teórico para a pesquisa científica). 2ª) A distribuição amostral de estatísticas, ao se aproximar da normalidade, serve de base para a inferência estatística, visto que se busca generalizar para a população os dados obtidos na amostra.

Normal Curva Normal Padronizada (escore-padrão) Para reduzir a infinidade de curvas normais possíveis a partir de tal modelo (visto que se trabalham com médias e desvios-padrão) utiliza-se um recurso para tornar comparáveis as diversas curvas normais. ESCORE-PADRÃO OU DESVIO REDUZIDO (z)

Normal Curva Normal Padronizada (escore-padrão) O escore-padrão indica, em unidades de desvio-padrão, o sentido e a intensidade com que determinado resultado bruto se afasta da média da distribuição à qual pertence. z escore- padrão z X - s X X X determinado resultado bruto média da distribuição s desvio - padrão da distribuição

Normal Curva Normal Padronizada (escore-padrão) Exemplo: um conjunto de notas de QI tem distribuição normal, com média 100 e desvio-padrão 15. Qual o escore padrão de um indivíduo que tenha obtido no teste de inteligência empregado X = 120, e como este dado deve ser interpretado. z X - X 120-100 z 1, 33 s 15 Uma pessoa com 120 de QI está + 1,33 desvio-padrão acima da média.

Normal Área sob a Curva Normal

Normal Área sob a Curva Normal - relações entre os valores de z. Para z ± 1,96 0,95 ou 95% da área total. Área fora do limite 0,05 ou 5% da área total. Para z ± 2,58 0,99 ou 99% da área total. Área fora do limite 0,01 ou 1% da área total.

Normal Área sob a Curva Normal - relações entre os valores de z. Para z ±1,96 => 0,95 ou 95% da área total.

Normal Área sob a Curva Normal - relações entre os valores de z. Para z ± 2,58 => 0,99 ou 99% da área total.

Normal Área sob a Curva Normal - relações entre os valores de z. Área fora do limite = 0,05 ou 5% da área total.

Normal Área sob a Curva Normal - relações entre os valores de z. Área fora do limite = 0,01 ou 1% da área total.

Normal Tabelas da Curva Normal Permitem resolver dois tipos de problemas: 1º) Qual a proporção ou área correspondente a determinado(s) valor(es) da distribuição? 2º) Qual (is) o(s) valor(es) da distribuição correspondente(s) a determinada(s) área(s) ou proporção(ões)?

Normal Tabelas da Curva Normal Exemplo: um teste de inteligência foi aplicado em um grupo de 50 estudantes de uma série. Os resultados obtidos apresentaram uma distribuição aproximadamente normal, com média 50 e desvio-padrão 6. a) Qual a proporção de alunos com notas superiores a 60? b) Qual o número de alunos com notas compreendidas entre 35 e 45?

Normal Tabelas da Curva Normal Exemplo: Qual a proporção de alunos com notas superiores a 60? 1º) Transforma-se a nota 60 em desvio-reduzido: z X - X 60-50 z 1, 67 s 6

Normal Tabelas da Curva Normal Exemplo: Qual a proporção de alunos com notas superiores a 60? Localização da área da curva normal 1,67 acima da média Área da curva normal acima do desvio reduzido z = 1,67

Normal Tabelas da Curva Normal Exemplo: Qual a proporção de alunos com notas superiores a 60? 2º) Encontra-se o dado na Tabela referente à área entre a origem e um valor determinado de z: Área total compreendida entre a origem e z = 1,67: 0,45254

Normal Tabelas da Curva Normal Exemplo: Qual a proporção de alunos com notas superiores a 60? Tabela (área entre a origem e um valor determinado de z)

Normal Tabelas da Curva Normal Exemplo: Qual a proporção de alunos com notas superiores a 60? Tabela (área entre a origem e um valor determinado de z) 7 Área total compreendida entre a origem e z = 1,67: 0,45254

Normal Tabelas da Curva Normal Exemplo: Qual a proporção de alunos com notas superiores a 60? 3º) Subtrai-se a área total entre a origem e + para determinar a área desejada: 0,500000 0,45254 = 0,04746 4,75% Porcentagem de alunos com notas superiores a 60

Normal Tabelas da Curva Normal Exemplo: Qual o número de alunos com notas compreendidas entre 35 e 45? 1º) Calculam-se os desvios reduzidos: X 35 35-50 z1 2, 50 6 X 45 45-50 z2 0, 83 6

Normal Tabelas da Curva Normal Exemplo: Qual o número de alunos com notas compreendidas entre 35 e 45? Localização da área da curva normal entre 2,50 e 0,83

Normal Tabelas da Curva Normal Exemplo: Qual o número de alunos com notas compreendidas entre 35 e 45? 2º) Encontram-se na Tabela os dados referentes à área entre a origem e os valores determinados de z: Área total compreendida entre a origem e z 1 = - 2,50: 0,49379 Área total compreendida entre a origem e z 2 = - 0,83: 0,29673

Normal Tabelas da Curva Normal Exemplo: Qual o número de alunos com notas compreendidas entre 35 e 45? 3º) Subtraem-se as áreas encontradas: 0,49379 0,29673 = 0,19706 19,71% Porcentagem de alunos com notas entre 35 e 45

Normal Tabelas da Curva Normal Exemplo: Qual o número de alunos com notas compreendidas entre 35 e 45? 4º) Multiplica-se a porcentagem total encontrada pelo tamanho da amostra: 19,71% x 50 = 9,86 Por se tratar de uma variável discreta, deve-se arredondar para 10, ou seja, 10 alunos possuem notas entre 35 e 45.

Normal Aplicações Teoria da Amostragem: segundo o Teorema Central do Limite, quando n 30, o uso da distribuição normal é garantido para a estimativa de médias e proporções populacionais. Testes de Hipóteses: testar hipóteses sobre médias ou diferenças entre médias de dois ou mais grupos.

Distribuição Normal Testes paramétricos Exploração de Dados

Pressupostos de um teste paramétrico: 1º) Distribuição normal (ou aproximadamente normal) dos dados.

Pressupostos de um teste paramétrico: 2º) Independência entre as unidades de análise. Ex.: O comportamento de um participante não pode influenciar o comportamentos de outro participante. 3º) Dados quantitativos (intervalares ou de razão). 4º) Homogeneidade das variâncias (homoscedasticidade): as variâncias devem ser as mesmas para as diferentes populações consideradas.

Como testar a hipótese de normalidade de uma distribuição? 1º) Estudar a assimetria e a curtose da distribuição

Como testar a hipótese de normalidade de uma distribuição? Passos 1º) Estudar a assimetria e a curtose da distribuição Assimetria e Curtose = 0 (zero) Distribuição perfeitamente normal 50% 50%

Como testar a hipótese de normalidade de uma distribuição? Passos 1º) Estudar a assimetria e a curtose da distribuição Coeficiente de assimetria: grau de deformação de uma distribuição Escalas de Assimetria: AS < 0,15 => assimetria pequena 0,15 < AS < 1 => assimetria moderada AS > 1 => assimetria elevada Assimetria positiva: valores à esquerda Assimetria negativa: valores à direita

Como testar a hipótese de normalidade de uma distribuição? Passos 1º) Estudar a assimetria e a curtose da distribuição Coeficiente de curtose: grau de achatamento de uma distribuição Curtose positiva: distribuição leptocúrtica Curtose negativa: distribuição platicúrtica K = 0,049 K = -0,968 EP = 0,535 EP = 0,717

Como testar a hipótese de normalidade de uma distribuição? 2º) Procurar valores atípicos (outliers)

Como testar a hipótese de normalidade de uma distribuição? Passos 2º) Procurar valores atípicos (outliers) Um valor atípico (outlier) é um escore que se dispersa bastante dos demais escores de uma distribuição, podendo enviesar significativamente a média amostral. Como identificar um caso outlier? 1º) Estudar graficamente a distribuição de frequências: BOXPLOT 2º) Transformar os escores brutos em escores-z.

Como testar a hipótese de normalidade de uma distribuição? Passos 2º) Procurar valores atípicos (outliers) BOXPLOT: Apresenta diversas informações sobre o conjunto dos dados.

Como testar a hipótese de normalidade de uma distribuição? 3º) Ajustar a distribuição

Como testar a hipótese de normalidade de uma distribuição? Passos 3º) Ajustar a distribuição 1) A princípio, deve-se verificar possíveis erros de digitação. Se não houver erros de digitação: Possibilidades a) Remover o caso outlier, entendendo que ele não pertence à população investigada. b) Substituir o valor (ex.: substituir pelo próximo escore mais alto adicionado de um; inverter o valor do escore-z; substituir pela média mais dois desvios-padrão). c) Transformar os dados.

Como testar a hipótese de normalidade de uma distribuição? 4º) Realizar testes de normalidade

Como testar a hipótese de normalidade de uma distribuição? Passos 4º) Realizar testes de normalidade São duas as técnicas mais comumente empregadas para o teste da hipótese de normalidade. Ambas testam a hipótese de que os dados da amostra estão normalmente distribuídos, baseando-se no valor absoluto da diferença máxima entre a distribuição cumulativa observada e a distribuição cumulativa esperada, assumindo o pressuposto da normalidade. observada esperada

Como testar a hipótese de normalidade de uma distribuição? Passos 4º) Realizar testes de normalidade Testes para a hipótese de normalidade: a)kolmogorov-smirnov (K-S): 50 casos b)shapiro-wilk < 50 casos H 0 = A característica em estudo da população segue a distribuição normal (ou não há diferenças significativas entre a frequência observada e a esperada) H 1 = A característica em estudo da população não segue a distribuição normal (ou há diferenças significativas entre a frequência observada e a esperada)

Como testar a hipótese de normalidade de uma distribuição? Passos 4º) Realizar testes de normalidade Tais estatísticas baseiam-se na maior diferença absoluta entre a frequência acumulada observada e a estimada pela distribuição normal. Se p > 0,05 = corrobora H 0 (distribuição é normal) Se p 0,05 = corrobora H 1 (distribuição não é normal)

Como testar a hipótese de normalidade de uma distribuição? Passos 4º) Realizar testes de normalidade LIMITAÇÃO DE TAIS TESTES Com amostras grandes é muito fácil obter valores significativos a partir de pequenos desvios de normalidade. Assim, um resultado significativo não necessariamente nos informa se o desvio da normalidade é suficiente para prejudicar os procedimentos estatísticos que serão aplicados futuramente aos dados.

Como testar a hipótese de normalidade de uma distribuição? 5º) Realizar o teste de homoscedasticidade

Como testar a hipótese de normalidade de uma distribuição? Passos 5º) Realizar o teste de homoscedasticidade Caso tenham sido coletados grupos de dados, a variância da variável critério deve ser a mesma em cada um desses grupos. Ex.: As variâncias entre homens e mulheres deve ser a mesma para a média geral de desejo de permanência na organização. O teste mais comumente empregado para o teste da homoscedasticidade é o teste de Levene, o qual testa a hipótese nula de que a variância entre os grupos é a mesma (diferença entre as variâncias igual a zero).

Como testar a hipótese de normalidade de uma distribuição? Passos Teste de Levene 5º) Realizar o teste de homoscedasticidade Se p > 0,05 = corrobora H 0 (variâncias são homogêneas) Se p 0,05 = corrobora H 1 (variâncias não são homogêneas) LIMITAÇÃO DO TESTE DE LEVENE Assim como o teste K-S, quando o tamanho da amostra é grande, pequenas diferenças entre os grupos podem produzir um teste de Levene significativo. SOLUÇÃO

Como testar a hipótese de normalidade de uma distribuição? Passos Teste de Levene 5º) Realizar o teste de homoscedasticidade Calcular a razão das variâncias: dividir o valor da maior variância entre os grupos do valor da menor variância. Ex.: r = 0,536/0,486 r = 1,10 Se r < 2, há homogeneidade das variâncias

Testando a hipótese de normalidade de uma distribuição no SPSS

Testando a hipótese de normalidade no SPSS SPSS: Menu ANALYZE Comando Explore Analyze > Descriptive Statistics > Explore

Testando a hipótese de normalidade no SPSS Caso se deseje testar a normalidade de uma única variável, independentemente da sua distribuição entre grupos:

Testando a hipótese de normalidade no SPSS Clicar em Statistics:

Testando a hipótese de normalidade no SPSS Selecionar outliers e Continue:

Testando a hipótese de normalidade no SPSS Clicar em Plots:

Testando a hipótese de normalidade no SPSS Selecionar Histogram e Normality Plots with tests:

Testando a hipótese de normalidade no SPSS Clicar em OK:

Output Testando a hipótese de normalidade no SPSS

Output Testando a hipótese de normalidade no SPSS p < 0,05 (significativo) => distribuição não-normal

Output Testando a hipótese de normalidade no SPSS

Normal Q-Q Plot Qualquer desvio dos pontos em relação à linha reta diagonal representa um desvio da normalidade. Quando a linha fica de forma consistente abaixo da diagonal ou acima, mostra-se que a curtose é diferente de uma distribuição normal. Quando os pontos apresentarem uma forma de S, mostra-se assimetria.

Detrended Normal Q-Q Plot Espera-se uma distribuição em torno de 0,00 e um equilíbrio na dispersão dos escores acima e abaixo de 0,00.

Box Plot

Transformando Dados no SPSS

Transformando Dados

Transformando Dados Transform > Compute Numeric Expression LG10(variável + 1) ou Adiciona-se a constante 1 para assegurar que todos os valores são maiores do que zero. SQRT(variável) 1/(variável + 1) => recíproca É importante comparar a distribuição original com a distribuição transformada, a fim de verificar se houve um ajuste significativo para os dados.

Comparação entre dados originais e transformados Ass = 0,051 K = 0,872 Transformação aumentou a Ass e a K. Ass = -0,627 K = 1,753

Teste da Homoscedasticidade entre grupos

Teste da Homoscedasticidade Inserir variável que possui os grupos para teste da homogeneidade das variâncias da variável critério

Teste da Homoscedasticidade Untransformed: o teste de Levene será realizado com os dados brutos Transformed: o teste de Levene será realizado com os dados transformados

Teste da Homoscedasticidade p > 0,05 (não-significativo) => variâncias homogêneas entre homens e mulheres Comunicação do Teste de Levene: F (df1, df2) = valor F (1, 1860) = 1,823, p > 0,05.

Se, após todas estas técnicas, sua distribuição for não-normal, considere utilizar os TESTES NÃO-PARAMÉTRICOS