UNIVERSIDADE FEDERAL FLUMINENSE Programa de Mestrado e Doutorado em Engenharia de Produção Disciplina: Estatística Multivariada Aula: Introdução a MVDA e Revisão Estatística Professor: Valdecy Pereira, D. Sc. / Elaine Araújo, D. Sc. email: valdecy.pereira@gmail.com / elaineadc13@gmail.com 2015-2
Agenda 1. Introdução a MVDA 2. Softwares de Apoio 3. Introdução ao SPSS 4. Estatística Descritiva 5. Normalidade 6. Testes de Hipótese 7. Referências 2
Análise Estatística de Dados Univariada Bivariada Multivariada 3
Análise Estatística de Dados Univariada Bivariada Multivariada 4
Etapa 1 Definição do Problema Etapa 2 Seleção do Método de Análise Etapa 3 Coleta de Dados Etapa 4 Preparação dos Dados Etapa 5 Aplicação do Método Etapa 6 Análise dos Resultados 5
MVDA A Estatística Multivariada estuda o comportamento de três ou mais variáveis simultaneamente. As ferramentas multivariadas permitem: Encontrar a(s) variável(is) menos representativa(s) para poder eliminá-la(s), simplificando modelos estatísticos; Estudar a estrutura de dados por meio da correlação entre variáveis; Explorar a estrutura de dados por meio da sua similaridade. Testar a influência de variáveis independentes sobre variáveis dependentes;
MVDA - Softwares de Apoio
MVDA - Softwares de Apoio SPSS (Statistical Package for the Social Sciences) - Data View (Visualização de Dados)
10
MVDA - Softwares de Apoio SPSS (Statistical Package for the Social Sciences) - Data Editor (Visualização da Variável)
Nome: Nome da variável. Tipo: Numérico, Data, etc. Largura: Tamanho da variável nominal. Decimais: Número de casas decimais. Rótulo: Descrição da variável (Output). Valores: Níveis das variáveis categóricas. Ausente: Codificação dos dados faltantes. Colunas: Largura da coluna. Alinhar: Alinhamento da variável (Esquerda, Centro ou Direita). Medir: Tipo de escala (Métrica ou Não-Métrica). Função: Dados de entrada ou saída. 12
MVDA - Média Corresponde ao somatório de um conjunto de valores dividido pela quantidade destes valores. Média = x n n = número de valores A média nos dá uma idéia de onde os valores do meu conjunto de dados tende a se concentrar. 14
MVDA - Média É a mais popular das medidas de tendência central; A média de um conjunto de números pode ser sempre calculada; Para um dado conjunto de números a média é única; É sensível a todos os valores do conjunto. Assim se um valor se modifica, a média também se modifica; Somando-se ou reduzindo-se uma constante a cada valor do conjunto, a média ficará aumentada ou reduzida dessa constante: µ(x ± k) = µ (x) ± k Multiplicando-se ou dividindo-se cada valor do conjunto por uma constante, a média ficará multiplicada ou reduzida por essa constante: µ( x k ) = µ (x) k 15
MVDA - Média Aparada Foi introduzida recentemente nos estudos estatísticos; Se obtém eliminando do conjunto de dados os m maiores e os m menores valores; Normalmente m correspondente: 2,5% a 5% dos valores observados; Na verdade o que se está fazendo é eliminando os valores extremos superiores e inferiores (valores discrepantes - outliers); 16
MVDA - Média Ponderada Cada elemento do conjunto pode ter importância diferente (peso). Neste caso o cálculo da média deve levar em conta os pesos desiguais de cada elemento. x p n i 1 n i 1 Exemplo : Um professor definiu que as provas mensais teriam peso de 30% e a prova final teria peso de 40% no cálculo dos rendimentos dos alunos. x i p p i i Exame Nota Peso P1 80 0,30 P2 90 0,30 P3 96 0,40 x p 0,3*80 + 0,3*90 + 0,4*96 0,3 + 0,3 + 0,4 = 89,4 17
MVDA - Mediana A Mediana de um conjunto de valores é o valor do meio desse conjunto, quando estes estão em ordem crescente. Divide um conjunto de dados ordenados em dois grupos iguais. Dado o conjunto de 11 dados: 3, 7, 5, 5, 1, 9, 15, 13, 17, 13, 17 Valor central = mediana 01, 03, 05, 05, 07, 9 11, 13, 13, 15, 17 Num conjunto de dados fortemente desviado, a mediana é uma medida mais representativa (distribuição de rendas, folha de pagamentos) 18
MVDA - Moda A Moda de um conjunto de valores é o valor que apresenta maior freqüência em um conjunto de observações. É o valor ou classe de maior freqüência num conjunto de dados. - pode não existir - pode não ser única Exemplo : Dado o conjunto de dados 10, 10, 11, 14, 15, 16, 17, 18, 18. A moda é constituída de dois valores: MO = 10 e 18. 19
MVDA - Amplitude (Range) É expresso pela diferença entre o maior e o menor valor num grupo, ou pela identificação desses dois números. Números (1 ; 5 ; 7 ; 13) (14 ; 3 ; 17 ; 4 ; 8 ; 73 ; 36 ; 48) (3,2 ; 4,7 ; 5,6 ; 2,1 ; 1,9 ; 10,3) Amplitude 13 1 = 12 73 3 = 70 10,3 1,9 = 8,4 20
MVDA - Variância & Desvio Padrão A Variância é o desvio padrão são as medidas de dispersão mais utilizadas. O desvio padrão é mais comumente usado porque se apresenta na mesma unidade da variável em análise. Assim, se a unidade da variável for mm, o desvio padrão também será mm. σ 2 = i=1 n x i n 1 σ = σ 2 x 2 21
MVDA - Variância & Desvio Padrão Exemplo: x i x x i 2 6 16 4 6 4 6 6 0 8 6 4 10 6 16 x 2 σ 2 = i=1 n x i n 1 x 2 = 40 4 = 10 σ = σ 2 = 10 = 3,162
MVDA - Variância e Desvio Padrão 11 12 13 14 15 16 17 18 19 20 21 x = 15,5 σ = 3,338 11 12 13 14 15 16 17 18 19 20 21 x = 15,5 σ = 0,926 11 12 13 14 15 16 17 18 19 20 21 x = 15,5 σ = 4,570 23
MVDA - Distribuição Normal Uma Distribuição Normal é inteiramente descrita por seus parâmetros de média e desvio padrão, ou seja, conhecendo-se estes valores consegue-se determinar qualquer probabilidade em uma Distribuição Normal. Um interessante uso da Distribuição Normal é que ela serve de aproximação para o cálculo de outras distribuições quando o número de observações fica grande. Essa importante propriedade provém do Teorema do Limite Central que diz que "toda soma de variáveis aleatórias independentes de média finita e variância limitada é aproximadamente Normal, desde que o número de termos da soma seja suficientemente grande".
MVDA - Distribuição Normal A área em amarelo está a menos de um desvio padrão (σ) da média. Em uma distribuição normal, isto representa cerca de 68% do conjunto, enquanto dois desvios padrões desde a média (laranja e amarelo) representam cerca de 95%, e três desvios padrões (amarelo, laranja e vermelho) cobrem cerca de 99.7%. Este fato é conhecido como regra empírica, ou a regra dos 3 sigmas. 68.26% 95.45% 99.73% -6-5 -4-3 -2-1 +1 +2 +3 +4 +5 +6 25
MVDA - Distribuição Normal A obliquidade ou assimetria (Skewness) é uma medida da assimetria de uma determinada distribuição de frequência. É definida por: v n i 1 ( x i n 3 x) 3 Se v > 0, então a distribuição tem uma cauda direita (valores acima da média assimetria negativa) mais pesada Se v < 0, então a distribuição tem uma cauda esquerda (valores abaixo da média assimetria positiva) mais pesada Se v = 0, então a distribuição é aproximadamente simétrica. 26
MVDA - Distribuição Normal Média Assimetria + Assimetria - 27
MVDA - Distribuição Normal A curtose (Kurtosis) é uma medida de dispersão que caracteriza o pico ou achatamento da curva da função de distribuição de probabilidade. É normalmente definida como: n 4 ( xi x) i k 3 4 n Se k = 0, então tem o mesmo achatamento que a distribuição normal. Chama-se a estas funções de mesocúrticas. Se k > 0, então a distribuição em questão é mais alta (afunilada) e concentrada que a distribuição normal. Chama-se a estas funções de leptocúrticas. Se k < 0, então a função de distribuição é mais achatada que a distribuição normal. Chama-se a estas funções de platicúrticas. 28
MVDA - Distribuição Normal Leptocúrtica Mesocúrtica Platicúrtica 29
MVDA - Teste de Hipótese Uma Hipótese, em estatística é uma afirmação sobre alguma propriedade de uma população e um Teste de Hipótese é um método que aceita ou rejeita essa afirmação através de uma amostra dessa população, analisando resultados que podem surgir normalmente e resultados que são altamente improváveis. O Teste de Hipótese deve ser utilizado caso a relação entre as variáveis não seja óbvia em uma inspeção visual. 68.26% 95.45% 99.73% -6-5 -4-3 -2-1 +1 +2 +3 +4 +5 +6 30
MVDA - Teste de Hipótese Hipótese Nula (H 0 ): É a afirmação que esta sendo testada. Hipótese Alternativa (H 1 ): É o que se acredita ser verdadeiro quando a hipótese nula é considerada falsa. Região Crítica: É a região onde se encontram os valores que causariam a rejeição da hipótese nula. Valor Crítico: É valor que inicia a região crítica. Intervalo de Confiança ( 1 α ; α = significância; 0 α 1 ): É um intervalo estimado de um parâmetro de interesse de uma população. Em vez de estimar o parâmetro por um único valor, é dado um intervalo de estimativas prováveis. 31
MVDA - Teste de Hipótese Valor Crítico Valor Crítico 68.26% 95.45% 99.73% -6-5 -4-3 -2-1 +1 +2 +3 +4 +5 +6 Região Crítica Região Crítica 32
MVDA SPSS Estatística Descritiva 33
Data View (Visualização de Dados) 34
Data Editor (Visualização da Variável) 35
36
37
38
MVDA 39
Estatísticas descritivas N Intervalo Mínimo Máximo Soma Média Estatística Estatística Estatística Estatística Estatística Estatística Erro Padrão writing score 200 36,00 31,00 67,00 10555,00 52,7750,67024 N válido (de lista) 200 Desvio Padrão Variância Assimetria Curtose Estatística Estatística Estatística Erro Padrão Estatística Erro Padrão 9,47859 89,844 -,482,172 -,750,342 40
N - Número de observações. N Válido - Número de observações consideradas para o cálculo. Intervalo - Amplitude da variável. Mínimo - Valor mínimo da variável. Máximo - Valor máximo da variável. Soma - Somatório de todos os valores da variável. Média - Média aritmética. σ Erro Padrão - Erro padrão da Média. É calculado como: Desvio Padrão - Desvio Padrão da variável. Variância - Variância da variável. Assimetria - Assimetria da variável. Erro Padrão - Erro padrão da Assimetria. É calculado como: Curtose - Curtose da variável. Erro Padrão - Erro Padrão da Curtose. É calculado como: N 6N(N 1) (N 2)(N 1)(N+3) 2 6N(N 1) (N 2)(N 1)(N + 3) N 2 1 (N 3)(N + 5) Dividindo-se Assimetria e Curtose pelos seus respectivos Erros Padrões, podemos achar os seus valores críticos. Se estiverem entre 2 e +2, pode ser que a distribuição seja simétrica e mesocúrtica. 41
MVDA SPSS Testes de Normalidade 42
43
44
45
MVDA- 46
Aqui dois testes para normalidade são executados. Para conjunto de dados menores do que 2000 observações, usamos o teste de Shapiro-Wilk (H0 A amostra provém de uma Distribuição Normal; Ha - A amostra não provém de uma Distribuição Normal), caso contrário, o teste de Kolmogorov-Smirnov (H0 A amostra provém de uma Distribuição Normal; Ha - A amostra não provém de uma Distribuição Normal) é usado. 47
Aqui dois testes para normalidade são executados. Para conjunto de dados menores do que 2000 observações, usamos o teste de Shapiro-Wilk (H0 A amostra provém de uma Distribuição Normal; Ha - A amostra não provém de uma Distribuição Normal), caso contrário, o teste de Kolmogorov-Smirnov (H0 A amostra provém de uma Distribuição Normal; Ha - A amostra não provém de uma Distribuição Normal) é usado. Uma vez que se tem apenas 200 observações, o teste de Shapiro- Wilk é usado. O p-valor é de 0, então rejeita-se a hipótese nula 48
Aqui dois testes para normalidade são executados. Para conjunto de dados menores do que 2000 observações, usamos o teste de Shapiro-Wilk (H0 A amostra provém de uma Distribuição Normal; Ha - A amostra não provém de uma Distribuição Normal), caso contrário, o teste de Kolmogorov-Smirnov (H0 A amostra provém de uma Distribuição Normal; Ha - A amostra não provém de uma Distribuição Normal) é usado. Uma vez que se tem apenas 200 observações, o teste de Shapiro- Wilk é usado. O p-valor é de 0, então rejeita-se a hipótese nula OBS: O teste Kolmogorov-Smirnov pode ser usado para testar qualquer tipo de distribuição. 49
MVDA 50
51
INPUT PROGRAM. LOOP #i=1 to 200. COMPUTE id=#i. COMPUTE x=rv.normal(0,1). END CASE. END LOOP. END FILE. END INPUT PROGRAM. EXECUTE. 52
Selecione tudo e pressione: EXECUTAR SELEÇÃO 53
Outras Distribuições: RV.NORMAL(Média, Desvio Padrão), UNIFORM(Mínimo, Máximo), RV.BERNOULLI(Probabilidade), RV.CHISQ(Graus de Liberdade), RV.F(Graus de Liberdade, Graus de Liberdade), RV.GEOM(Probabilidade), RV.POISSON(Média), RV.T(Graus de Liberdade), 54
MVDA - Regras Avaliação: A partir da Aula 03 Trabalho Semanal sobre o conteúdo apresentado na aula anterior, onde o aluno deverá entregar um relatório impresso e uma apresentação em Powerpoint (anexo) até às 14h15. Um dos alunos deverá apresentar a solução do problema, e os outros alunos deverão discutir os resultados obtidos. No final do semestre será aplicada uma prova. Pontuação: Trabalhos Semanais (TS) Organização e Formatação do Relatório (2 pontos), Redação (2 pontos) e Aplicação Coerente da Ferramenta (2 pontos), Participação das Discussões (4 pontos valendo apenas se o relatório for entregue no prazo). Apresentação em Powerpoint (AP) Ortografia (3 pontos), Apresentação (3 pontos), Conteúdo Relevante a Solução do Problema (4 pontos). Prova (PR) 10 pontos. Ponderação: Nota Final: 0.4 Média TS + 0.2 Média AP + 0.4 PR 55
Referências BRUNI, A. L. SPSS Aplicado à Pesquisa Acadêmica. ATLAS, 2009. CORRAR, L.J.; PAULO, E.; DIAS FILHO, J. M. Análise Multivariada para Cursos de Administração, Ciências Contábeis e Economia. ATLAS, 2009. FÁVERO, L. P.; BELFIORE, P.; SILVA, F. L.; CHAN, B. Análise de Dados: Modelagem Multivariada para Tomada de Decisões. CAMPUS, 2009. HAIR, J. F.; BLACK, W. C.; BABIN, B. J.; ANDERSON, R. E.; TATHAM, R. L. Análise Multivariada de Dados. BOOKMAN, 2009. LATTIN, J.; CARROLL, J. D.; GREEN, P. E. Análise de Dados Multivariados. CENGAGE Learning, 2011. LEVINE, D. M.; STEPHAN, D. F.; KREHBIEL, T. C.; BERENSON, M. L. Estatística - Teoria e Aplicações - Usando Microsoft Excel. LTC, 2012.