UNIVERSIDADE FEDERAL FLUMINENSE. Programa de Mestrado e Doutorado em Engenharia de Produção. Disciplina: Estatística Multivariada

Documentos relacionados
UNIVERSIDADE FEDERAL FLUMINENSE. Programa de Mestrado e Doutorado em Engenharia de Produção. Disciplina: Estatística Multivariada

PROBABILIDADE E ESTATÍSTICA ESTATÍSTICA DESCRITIVA

Métodos Estatísticos Básicos

Estimação e Testes de Hipóteses

n = 25) e o elemento (pois = 19) e terá o valor 8. Verifique que antes e depois do 19 o elemento, teremos 18 elementos.

Medidas de Posição ou Tendência Central


ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTE

Métodos Experimentais em Ciências Mecânicas

Distribuição de frequências:

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

UNIVERSIDADE FEDERAL FLUMINENSE. Programa de Mestrado e Doutorado em Engenharia de Produção. Disciplina: Estatística Multivariada

Prof. Dr. Engenharia Ambiental, UNESP

SCC0173 Mineração de Dados Biológicos

Unidade III Medidas Descritivas

MEDIDAS DE TENDÊNCIA CENTRAL

Curso de Especialização em Fisioterapia Traumato-Ortopédica / 2010 NOÇÕES DE STICA

DISCIPLINA: ESTATÍSTICA I (CÓD. ENEC60015) PERÍODO: 3º PERÍODO

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

ESTATÍSTICA DESCRITIVA

Aula 3 MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE.

5.1 Introdução: As distribuições de freqüências não diferem apenas quanto ao valor médio e a variabilidade, mas também quanto a sua forma.

Artigo administração 1. INTRODUÇÃO 2. METODOLOGIA

Estatística Descritiva

Distribuição de frequências. Prof. Dr. Alberto Franke

Bioestatística Básica

Estatística Indutiva

Distribuição Normal. Apontamentos para a disciplina de Estatística I. Tomás da Silva, 2003/2006

Unidade II ESTATÍSTICA. Prof. Celso Guidugli

Intervalos de Confiança

MEDIDAS DE POSIÇÃO E DE DISPERSÃO. Profª Andréa H Dâmaso

Medidas de Tendência Central. Introdução Média Aritmética Moda Mediana Análise de Assimetria Separatrizes

Estatística e Probabilidade

AULA 07 Inferência a Partir de Duas Amostras

ESTATÍSTICA Medidas de Síntese

Proc Univariate:Testando a normalidade

25/08/2016. Estatística. Estatística. Medidas Estatísticas Medidas de Posição. Mariele Bernardes. Mariele Bernardes

Inferência Estatística: Conceitos Básicos I

Estimação parâmetros e teste de hipóteses. Prof. Dr. Alberto Franke (48)

APRESENTAÇÃO DO SPSS

Medidas de Dispersão ou variabilidade

Prof. Francisco Crisóstomo

Capítulo 3: Elementos de Estatística e Probabilidades aplicados à Hidrologia

CURSO DE SPSS AULA 2 MEDIDAS DESCRITIVAS. UFBA/FACED José Albertino Lordello Sheila Regina Pereira

Módulo III Medidas de Tendência Central ESTATÍSTICA

UNIVERSIDADE FEDERAL FLUMINENSE. Programa de Mestrado e Doutorado em Engenharia de Produção. Disciplina: Estatística Multivariada

Conceito de Estatística

Curso: Engenharia de Prod. Mecânica Engenharia Elétrica Estatística e Probabilidade Prof. Eng. Vicente Budzinski Notas de Aula

à Análise de Padrões

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)

Mais Informações sobre Itens do Relatório

Aula 2 Planejamento e Análise de Experimentos

ESTATÍSTICA. na Contabilidade Parte 6. Medidas Estatísticas

1 - Noções de álgebra matricial

Excel INTERMEDIÁRIO Estatística. Prof. Cassiano Isler Turma 3

Estatística: Objetivos e fundamentos

A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE:

Medidas de Dispersão. Prof.: Joni Fusinato

MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE FEDERAL DE PELOTAS PRÓ-REITORIA DE GRADUAÇÃO

Amostragem Aleatória e Descrição de Dados - parte I

Dados de identificação do Acadêmico: Nome: Login: CA: Cidade: UF Assinatura: CARTÃO RESPOSTA

Medidas de Tendência Central

Química Analítica V 1S Prof. Rafael Sousa. Notas de aula:

QUÍMICA ANALÍTICA V 2S Prof. Rafael Sousa. Notas de aula:

Professora conteudista: Maria Ester Domingues de Oliveira. Revisor: Francisco Roberto Crisóstomo

Revisão de distribuições de probabilidades contínuas (Capítulo 6 Levine)

ESTATÍSTICA. June 4, UFOP June 4, / 87

Revisão de estatística descritiva

AULA 2 UNIDADE 1 DISTRIBUIÇÃO DE FREQUÊNCIAS 1.1 INTRODUÇÃO

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

Estatística 1. Resumo Teórico

Autores: Fernando Sebastião e Helena Silva

Intervalos de Confiança - Amostras Pequenas

POPULAÇÃO X AMOSTRA INTRODUÇÃO À BIOESTATÍSTICA TIPOS DE VARIÁVEIS CLASSIFICAÇÃO DAS VARIÁVEIS CLASSIFICAÇÃO DAS VARIÁVEIS 1) TIPOS DE VARIÁVEIS

Exploração e Transformação de dados

1 Introdução aos Métodos Estatísticos para Geografia 1

Aula 00 Aula Demonstrativa

Inferência Estatística: Conceitos Básicos II

Inferência Estatística. Medidas de Tendência Central Medidas de Variação Medidas de Posição

PARTE 2- MEDIDAS DE TENDÊNCIA CENTRAL VERSÃO: JANEIRO DE 2017

TESTES NÃO-PARAMÉTRICOS

Apontamentos de Introdução às Probabilidades e à Estatística

MEDIDAS DE POSIÇÃO. Lucas Santana da Cunha Universidade Estadual de Londrina. 26 de abril de 2017

Distribuição Normal. Prof a Dr a Alcione Miranda dos Santos. Abril, 2011

Revisão de estatística descritiva

Testes de Hipótese para uma única Amostra - parte II

Métodos Quantitativos

MATERIAL COMPLEMENTAR: SPSS

Inferência a partir de duas amostras

Estatística Descritiva

4 Análise Exploratória

Universidade Federal do Pará Instituto de Tecnologia ESTATÍSTICA APLICADA. Campus de Belém Curso de Engenharia Mecânica

Modelos de Regressão Linear Simples - Análise de Resíduos

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Vimos que é possível sintetizar os dados sob a forma de distribuições de frequência e gráficos. Pode ser de interesse apresentar esses dados através d

Coleta e Modelagem dos Dados de Entrada

Padronização. Momentos. Coeficiente de Assimetria

Transcrição:

UNIVERSIDADE FEDERAL FLUMINENSE Programa de Mestrado e Doutorado em Engenharia de Produção Disciplina: Estatística Multivariada Aula: Introdução a MVDA e Revisão Estatística Professor: Valdecy Pereira, D. Sc. / Elaine Araújo, D. Sc. email: valdecy.pereira@gmail.com / elaineadc13@gmail.com 2015-2

Agenda 1. Introdução a MVDA 2. Softwares de Apoio 3. Introdução ao SPSS 4. Estatística Descritiva 5. Normalidade 6. Testes de Hipótese 7. Referências 2

Análise Estatística de Dados Univariada Bivariada Multivariada 3

Análise Estatística de Dados Univariada Bivariada Multivariada 4

Etapa 1 Definição do Problema Etapa 2 Seleção do Método de Análise Etapa 3 Coleta de Dados Etapa 4 Preparação dos Dados Etapa 5 Aplicação do Método Etapa 6 Análise dos Resultados 5

MVDA A Estatística Multivariada estuda o comportamento de três ou mais variáveis simultaneamente. As ferramentas multivariadas permitem: Encontrar a(s) variável(is) menos representativa(s) para poder eliminá-la(s), simplificando modelos estatísticos; Estudar a estrutura de dados por meio da correlação entre variáveis; Explorar a estrutura de dados por meio da sua similaridade. Testar a influência de variáveis independentes sobre variáveis dependentes;

MVDA - Softwares de Apoio

MVDA - Softwares de Apoio SPSS (Statistical Package for the Social Sciences) - Data View (Visualização de Dados)

10

MVDA - Softwares de Apoio SPSS (Statistical Package for the Social Sciences) - Data Editor (Visualização da Variável)

Nome: Nome da variável. Tipo: Numérico, Data, etc. Largura: Tamanho da variável nominal. Decimais: Número de casas decimais. Rótulo: Descrição da variável (Output). Valores: Níveis das variáveis categóricas. Ausente: Codificação dos dados faltantes. Colunas: Largura da coluna. Alinhar: Alinhamento da variável (Esquerda, Centro ou Direita). Medir: Tipo de escala (Métrica ou Não-Métrica). Função: Dados de entrada ou saída. 12

MVDA - Média Corresponde ao somatório de um conjunto de valores dividido pela quantidade destes valores. Média = x n n = número de valores A média nos dá uma idéia de onde os valores do meu conjunto de dados tende a se concentrar. 14

MVDA - Média É a mais popular das medidas de tendência central; A média de um conjunto de números pode ser sempre calculada; Para um dado conjunto de números a média é única; É sensível a todos os valores do conjunto. Assim se um valor se modifica, a média também se modifica; Somando-se ou reduzindo-se uma constante a cada valor do conjunto, a média ficará aumentada ou reduzida dessa constante: µ(x ± k) = µ (x) ± k Multiplicando-se ou dividindo-se cada valor do conjunto por uma constante, a média ficará multiplicada ou reduzida por essa constante: µ( x k ) = µ (x) k 15

MVDA - Média Aparada Foi introduzida recentemente nos estudos estatísticos; Se obtém eliminando do conjunto de dados os m maiores e os m menores valores; Normalmente m correspondente: 2,5% a 5% dos valores observados; Na verdade o que se está fazendo é eliminando os valores extremos superiores e inferiores (valores discrepantes - outliers); 16

MVDA - Média Ponderada Cada elemento do conjunto pode ter importância diferente (peso). Neste caso o cálculo da média deve levar em conta os pesos desiguais de cada elemento. x p n i 1 n i 1 Exemplo : Um professor definiu que as provas mensais teriam peso de 30% e a prova final teria peso de 40% no cálculo dos rendimentos dos alunos. x i p p i i Exame Nota Peso P1 80 0,30 P2 90 0,30 P3 96 0,40 x p 0,3*80 + 0,3*90 + 0,4*96 0,3 + 0,3 + 0,4 = 89,4 17

MVDA - Mediana A Mediana de um conjunto de valores é o valor do meio desse conjunto, quando estes estão em ordem crescente. Divide um conjunto de dados ordenados em dois grupos iguais. Dado o conjunto de 11 dados: 3, 7, 5, 5, 1, 9, 15, 13, 17, 13, 17 Valor central = mediana 01, 03, 05, 05, 07, 9 11, 13, 13, 15, 17 Num conjunto de dados fortemente desviado, a mediana é uma medida mais representativa (distribuição de rendas, folha de pagamentos) 18

MVDA - Moda A Moda de um conjunto de valores é o valor que apresenta maior freqüência em um conjunto de observações. É o valor ou classe de maior freqüência num conjunto de dados. - pode não existir - pode não ser única Exemplo : Dado o conjunto de dados 10, 10, 11, 14, 15, 16, 17, 18, 18. A moda é constituída de dois valores: MO = 10 e 18. 19

MVDA - Amplitude (Range) É expresso pela diferença entre o maior e o menor valor num grupo, ou pela identificação desses dois números. Números (1 ; 5 ; 7 ; 13) (14 ; 3 ; 17 ; 4 ; 8 ; 73 ; 36 ; 48) (3,2 ; 4,7 ; 5,6 ; 2,1 ; 1,9 ; 10,3) Amplitude 13 1 = 12 73 3 = 70 10,3 1,9 = 8,4 20

MVDA - Variância & Desvio Padrão A Variância é o desvio padrão são as medidas de dispersão mais utilizadas. O desvio padrão é mais comumente usado porque se apresenta na mesma unidade da variável em análise. Assim, se a unidade da variável for mm, o desvio padrão também será mm. σ 2 = i=1 n x i n 1 σ = σ 2 x 2 21

MVDA - Variância & Desvio Padrão Exemplo: x i x x i 2 6 16 4 6 4 6 6 0 8 6 4 10 6 16 x 2 σ 2 = i=1 n x i n 1 x 2 = 40 4 = 10 σ = σ 2 = 10 = 3,162

MVDA - Variância e Desvio Padrão 11 12 13 14 15 16 17 18 19 20 21 x = 15,5 σ = 3,338 11 12 13 14 15 16 17 18 19 20 21 x = 15,5 σ = 0,926 11 12 13 14 15 16 17 18 19 20 21 x = 15,5 σ = 4,570 23

MVDA - Distribuição Normal Uma Distribuição Normal é inteiramente descrita por seus parâmetros de média e desvio padrão, ou seja, conhecendo-se estes valores consegue-se determinar qualquer probabilidade em uma Distribuição Normal. Um interessante uso da Distribuição Normal é que ela serve de aproximação para o cálculo de outras distribuições quando o número de observações fica grande. Essa importante propriedade provém do Teorema do Limite Central que diz que "toda soma de variáveis aleatórias independentes de média finita e variância limitada é aproximadamente Normal, desde que o número de termos da soma seja suficientemente grande".

MVDA - Distribuição Normal A área em amarelo está a menos de um desvio padrão (σ) da média. Em uma distribuição normal, isto representa cerca de 68% do conjunto, enquanto dois desvios padrões desde a média (laranja e amarelo) representam cerca de 95%, e três desvios padrões (amarelo, laranja e vermelho) cobrem cerca de 99.7%. Este fato é conhecido como regra empírica, ou a regra dos 3 sigmas. 68.26% 95.45% 99.73% -6-5 -4-3 -2-1 +1 +2 +3 +4 +5 +6 25

MVDA - Distribuição Normal A obliquidade ou assimetria (Skewness) é uma medida da assimetria de uma determinada distribuição de frequência. É definida por: v n i 1 ( x i n 3 x) 3 Se v > 0, então a distribuição tem uma cauda direita (valores acima da média assimetria negativa) mais pesada Se v < 0, então a distribuição tem uma cauda esquerda (valores abaixo da média assimetria positiva) mais pesada Se v = 0, então a distribuição é aproximadamente simétrica. 26

MVDA - Distribuição Normal Média Assimetria + Assimetria - 27

MVDA - Distribuição Normal A curtose (Kurtosis) é uma medida de dispersão que caracteriza o pico ou achatamento da curva da função de distribuição de probabilidade. É normalmente definida como: n 4 ( xi x) i k 3 4 n Se k = 0, então tem o mesmo achatamento que a distribuição normal. Chama-se a estas funções de mesocúrticas. Se k > 0, então a distribuição em questão é mais alta (afunilada) e concentrada que a distribuição normal. Chama-se a estas funções de leptocúrticas. Se k < 0, então a função de distribuição é mais achatada que a distribuição normal. Chama-se a estas funções de platicúrticas. 28

MVDA - Distribuição Normal Leptocúrtica Mesocúrtica Platicúrtica 29

MVDA - Teste de Hipótese Uma Hipótese, em estatística é uma afirmação sobre alguma propriedade de uma população e um Teste de Hipótese é um método que aceita ou rejeita essa afirmação através de uma amostra dessa população, analisando resultados que podem surgir normalmente e resultados que são altamente improváveis. O Teste de Hipótese deve ser utilizado caso a relação entre as variáveis não seja óbvia em uma inspeção visual. 68.26% 95.45% 99.73% -6-5 -4-3 -2-1 +1 +2 +3 +4 +5 +6 30

MVDA - Teste de Hipótese Hipótese Nula (H 0 ): É a afirmação que esta sendo testada. Hipótese Alternativa (H 1 ): É o que se acredita ser verdadeiro quando a hipótese nula é considerada falsa. Região Crítica: É a região onde se encontram os valores que causariam a rejeição da hipótese nula. Valor Crítico: É valor que inicia a região crítica. Intervalo de Confiança ( 1 α ; α = significância; 0 α 1 ): É um intervalo estimado de um parâmetro de interesse de uma população. Em vez de estimar o parâmetro por um único valor, é dado um intervalo de estimativas prováveis. 31

MVDA - Teste de Hipótese Valor Crítico Valor Crítico 68.26% 95.45% 99.73% -6-5 -4-3 -2-1 +1 +2 +3 +4 +5 +6 Região Crítica Região Crítica 32

MVDA SPSS Estatística Descritiva 33

Data View (Visualização de Dados) 34

Data Editor (Visualização da Variável) 35

36

37

38

MVDA 39

Estatísticas descritivas N Intervalo Mínimo Máximo Soma Média Estatística Estatística Estatística Estatística Estatística Estatística Erro Padrão writing score 200 36,00 31,00 67,00 10555,00 52,7750,67024 N válido (de lista) 200 Desvio Padrão Variância Assimetria Curtose Estatística Estatística Estatística Erro Padrão Estatística Erro Padrão 9,47859 89,844 -,482,172 -,750,342 40

N - Número de observações. N Válido - Número de observações consideradas para o cálculo. Intervalo - Amplitude da variável. Mínimo - Valor mínimo da variável. Máximo - Valor máximo da variável. Soma - Somatório de todos os valores da variável. Média - Média aritmética. σ Erro Padrão - Erro padrão da Média. É calculado como: Desvio Padrão - Desvio Padrão da variável. Variância - Variância da variável. Assimetria - Assimetria da variável. Erro Padrão - Erro padrão da Assimetria. É calculado como: Curtose - Curtose da variável. Erro Padrão - Erro Padrão da Curtose. É calculado como: N 6N(N 1) (N 2)(N 1)(N+3) 2 6N(N 1) (N 2)(N 1)(N + 3) N 2 1 (N 3)(N + 5) Dividindo-se Assimetria e Curtose pelos seus respectivos Erros Padrões, podemos achar os seus valores críticos. Se estiverem entre 2 e +2, pode ser que a distribuição seja simétrica e mesocúrtica. 41

MVDA SPSS Testes de Normalidade 42

43

44

45

MVDA- 46

Aqui dois testes para normalidade são executados. Para conjunto de dados menores do que 2000 observações, usamos o teste de Shapiro-Wilk (H0 A amostra provém de uma Distribuição Normal; Ha - A amostra não provém de uma Distribuição Normal), caso contrário, o teste de Kolmogorov-Smirnov (H0 A amostra provém de uma Distribuição Normal; Ha - A amostra não provém de uma Distribuição Normal) é usado. 47

Aqui dois testes para normalidade são executados. Para conjunto de dados menores do que 2000 observações, usamos o teste de Shapiro-Wilk (H0 A amostra provém de uma Distribuição Normal; Ha - A amostra não provém de uma Distribuição Normal), caso contrário, o teste de Kolmogorov-Smirnov (H0 A amostra provém de uma Distribuição Normal; Ha - A amostra não provém de uma Distribuição Normal) é usado. Uma vez que se tem apenas 200 observações, o teste de Shapiro- Wilk é usado. O p-valor é de 0, então rejeita-se a hipótese nula 48

Aqui dois testes para normalidade são executados. Para conjunto de dados menores do que 2000 observações, usamos o teste de Shapiro-Wilk (H0 A amostra provém de uma Distribuição Normal; Ha - A amostra não provém de uma Distribuição Normal), caso contrário, o teste de Kolmogorov-Smirnov (H0 A amostra provém de uma Distribuição Normal; Ha - A amostra não provém de uma Distribuição Normal) é usado. Uma vez que se tem apenas 200 observações, o teste de Shapiro- Wilk é usado. O p-valor é de 0, então rejeita-se a hipótese nula OBS: O teste Kolmogorov-Smirnov pode ser usado para testar qualquer tipo de distribuição. 49

MVDA 50

51

INPUT PROGRAM. LOOP #i=1 to 200. COMPUTE id=#i. COMPUTE x=rv.normal(0,1). END CASE. END LOOP. END FILE. END INPUT PROGRAM. EXECUTE. 52

Selecione tudo e pressione: EXECUTAR SELEÇÃO 53

Outras Distribuições: RV.NORMAL(Média, Desvio Padrão), UNIFORM(Mínimo, Máximo), RV.BERNOULLI(Probabilidade), RV.CHISQ(Graus de Liberdade), RV.F(Graus de Liberdade, Graus de Liberdade), RV.GEOM(Probabilidade), RV.POISSON(Média), RV.T(Graus de Liberdade), 54

MVDA - Regras Avaliação: A partir da Aula 03 Trabalho Semanal sobre o conteúdo apresentado na aula anterior, onde o aluno deverá entregar um relatório impresso e uma apresentação em Powerpoint (anexo) até às 14h15. Um dos alunos deverá apresentar a solução do problema, e os outros alunos deverão discutir os resultados obtidos. No final do semestre será aplicada uma prova. Pontuação: Trabalhos Semanais (TS) Organização e Formatação do Relatório (2 pontos), Redação (2 pontos) e Aplicação Coerente da Ferramenta (2 pontos), Participação das Discussões (4 pontos valendo apenas se o relatório for entregue no prazo). Apresentação em Powerpoint (AP) Ortografia (3 pontos), Apresentação (3 pontos), Conteúdo Relevante a Solução do Problema (4 pontos). Prova (PR) 10 pontos. Ponderação: Nota Final: 0.4 Média TS + 0.2 Média AP + 0.4 PR 55

Referências BRUNI, A. L. SPSS Aplicado à Pesquisa Acadêmica. ATLAS, 2009. CORRAR, L.J.; PAULO, E.; DIAS FILHO, J. M. Análise Multivariada para Cursos de Administração, Ciências Contábeis e Economia. ATLAS, 2009. FÁVERO, L. P.; BELFIORE, P.; SILVA, F. L.; CHAN, B. Análise de Dados: Modelagem Multivariada para Tomada de Decisões. CAMPUS, 2009. HAIR, J. F.; BLACK, W. C.; BABIN, B. J.; ANDERSON, R. E.; TATHAM, R. L. Análise Multivariada de Dados. BOOKMAN, 2009. LATTIN, J.; CARROLL, J. D.; GREEN, P. E. Análise de Dados Multivariados. CENGAGE Learning, 2011. LEVINE, D. M.; STEPHAN, D. F.; KREHBIEL, T. C.; BERENSON, M. L. Estatística - Teoria e Aplicações - Usando Microsoft Excel. LTC, 2012.