MODIFICAÇÃO DO TESTE DE NORMALIDADE DE SHAPIRO-WILK MULTIVARIADO DO SOFTWARE ESTATÍSTICO R



Documentos relacionados
Função bayesiana em R para o problema de Behrens-Fisher multivariado

Análise bioestatística em fumantes dinamarqueses associado

XVIII CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 19 a 23 de outubro de 2009

ANÁLISE DA PROVA DE PORTUGUÊS PARA O CURSO DE AGRONOMIA ATRAVÉS DA TEORIA DA RESPOSTA AO ITEM

Técnicas Multivariadas em Saúde. Comparações de Médias Multivariadas. Métodos Multivariados em Saúde Roteiro. Testes de Significância

Modelagem do total de passageiros transportados no aeroporto internacional de Belém: Um estudo preliminar

PLANO DE ENSINO. Mestrado em Matemática - Área de Concentração em Estatística

Análise Exploratória de Dados

ASSOCIAÇÃO ENTRE PRESENÇA DE CÂNCER DE ESÔFAGO COMPARADA COM HÁBITO DE FUMAR E IDADE EM INDIVÍDUOS DA DINAMARCA

DEFINIÇÃO DO TAMANHO AMOSTRAL USANDO SIMULAÇÃO MONTE CARLO PARA O TESTE DE NORMALIDADE BASEADO EM ASSIMETRIA E CURTOSE. II. ABORDAGEM MULTIVARIADA

Aula 04 Método de Monte Carlo aplicado a análise de incertezas. Aula 04 Prof. Valner Brusamarello

TEMPO DE ESPERA NA FILA DE ESTABELECIMENTOS COMERCIAIS NA CIDADE DE PONTES E LACERDA, MT

Avaliando o que foi Aprendido

Epidemiologia. Profa. Heloisa Nascimento

Tecido A B

ADERÊNCIA DE TÁBUAS DE MORTALIDADE GERAL PARA AVALIAÇÕES ATUARIAIS. * Ricardo Frischtak * Paulo Pereira

Renzo Joel Flores Ortiz e Ilka Afonso Reis

Estimação de pessoas com deficiência física motora e o mercado automobilístico de carros

Conceito de pesquisa

Um modelo de TRI para dados do vestibular da Universidade Federal de Uberlândia

TTT-PLOT E TESTE DE HIPÓTESES BOOTSTRAP PARA O MODELO BI-WEIBULL. Cleber Giugioli Carrasco 1 ; Francisco Louzada-Neto 2 RESUMO

INFLUÊNCIA DE VARIÁVEIS SOCIODEMOGRÁFICAS SOBRE O EMPREENDEDORISMO DO BRASIL

COMPARAÇÃO DOS TESTES DE ADERÊNCIA À NORMALIDADE KOLMOGOROV- SMIRNOV, ANDERSON-DARLING, CRAMER VON MISES E SHAPIRO-WILK POR SIMULAÇÃO

Saúde do Idoso 1ª Pesquisa sobre a Saúde e Condições de Vida do Idoso na Cidade do Rio de Janeiro. Ano

TÉCNICAS EXPERIMENTAIS APLICADAS EM CIÊNCIA DO SOLO

ESTUDO SOBRE A EVASÃO E O TEMPO ATÉ A FORMATURA DOS ALUNOS DO CURSO DE ESTATÍSTICA DA UFPR

Simulação Transiente

STATGEN Plataforma web para análise de dados genéticos.

UNIVERSIDADE DOS AÇORES


DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

Palavras-chave: Mortalidade Infantil, Análise Multivariada, Redes Neurais.

Pesquisa Sequencial e Binária. Introdução à Programação SI2

de Piracicaba-SP: uma abordagem comparativa por meio de modelos probabilísticos

ORGANIZAÇÃO DESTINATÁRIOS

Empresa de Pesquisa Energética (EPE) Analista de Projetos da Geração de Energia

AJUSTE DO MODELO DE COX A DADOS DE CÂNCER DE MAMA

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Após essa disciplina você vai ficar convencido que a estatística tem enorme aplicação em diversas áreas.

Correlação Canônica. Outubro / Versão preliminar. Fabio Vessoni. fabio@mv2.com.br (011) MV2 Sistemas de Informação

Introdução à genética quantitativa usando os recursos do R

CURSO ON-LINE PROFESSOR: VÍTOR MENEZES

Sistemas de Informação para Apoio à Decisão Gerencial Simulado Verdadeiro ou Falso

Qual é o risco real do Private Equity?

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

Número de plantas para estimação do plastocrono em feijão guandu

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I

Ajuste do modelo logístico ao número de alunos ingressos nos cursos superiores do IFSEMG - Câmpus Rio Pomba

18º Congresso de Iniciação Científica CARACTERÍSTICAS DA ANÁLISE DESCRITIVA EM ESTUDOS SOBRE EMPREENDEDORISMO

Modelos mistos na análise de dados longitudinais de um experimento para armazenamento de banana

Pesquisa Sequencial e Binária

Alocação de Recursos em Sistemas de Integração Lavoura-Pecuária: uma abordagem da Teoria do Portfólio

Dr. Ronaldo Pilati - Psicologia Social - Universidade de Brasília 1

'LVWULEXLomR(VWDWtVWLFDGRV9DORUHV([WUHPRVGH5DGLDomR6RODU *OREDOGR(VWDGRGR56

ESTUDO DO TEMPO ATÉ APOSENTADORIA DOS SERVIDORES TÉCNICO-ADMINISTRATIVOS DA UFLA VIA MODELO DE COX

MAPEAMENTO DA INOVAÇÃO EM EMPRESAS SERGIPANAS: UMA APLICAÇÃO DE REGRESSÃO LOGÍSTICA

CURSO ON-LINE PROFESSOR: VÍTOR MENEZES. Comentários sobre as provas de estatística e financeira ICMS RJ

MIEC MESTRADO INTEGRADO EM ENGENHARIA CIVIL 2014/2015 PROPOSTA DE TEMAS PARA DISSERTAÇÃO RAMO DE ESPECIALIZAÇÃO/ ÁREA CIENTÍFICA: ESTRUTURAS

Análise e Modelagem Longitudinal dos Dados da Pesquisa de Avaliação de Impacto do Programa Bolsa Família (Primeira e Segunda Rodadas)

Regressão logística na identificação de factores de risco em acidentes automóveis e fraude de seguros.

Análise de Regressão. Tópicos Avançados em Avaliação de Desempenho. Cleber Moura Edson Samuel Jr

ANÁLISE DA INSPEÇÃO DA LARGURA DOS TECIDOS DE POLIPROPILENO DA INDÚSTRIA TÊXTIL OESTE LTDA

Métodos estatísticos aplicados em saúde pública

TÉCNICAS DE ANÁLISE DE DADOS

Introdução ao Método de Galerkin Estocástico

6 Construção de Cenários

BCC202 - Estrutura de Dados I

A presente seção apresenta e especifica as hipótese que se buscou testar com o experimento. A seção 5 vai detalhar o desenho do experimento.

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ANÁLISE E TRATAMENTO DE DADOS Ano Lectivo 2014/2015

Teste de hipóteses com duas amostras. Estatística Aplicada Larson Farber

CAPÍTULO 9 RISCO E INCERTEZA

DEFINIÇÃO DO TAMANHO AMOSTRAL USANDO SIMULAÇÃO MONTE CARLO PARA O TESTE DE NORMALIDADE BASEADO EM ASSIMETRIA E CURTOSE. I. ABORDAGEM UNIVARIADA

Hipótese Estatística:

Projeto de Pesquisa 7/21/2014. Prof. Ricardo Melo. Referências. Conceitos

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ESTATÍSTICA INFERENCIAL Ano Lectivo 2014/2015

Anova Univariada e Multivariada

EVENTOS EM POPULAÇÕES DESENHOS DE ESTUDO PARA AVALIAÇÃO DE INTERVENÇÕES EM DOENÇAS TRANSMISSÍVEIS IMPLICAÇÕES DA DEPENDÊNCIA ENTRE EVENTOS

4 Segmentação Algoritmo proposto

7Testes de hipótese. Prof. Dr. Paulo Picchetti M.Sc. Erick Y. Mizuno. H 0 : 2,5 peças / hora

Complemento IV Introdução aos Algoritmos Genéticos

A normalidade em função do arredondamento e baixa discriminação dos dados.

UNIDADE DE PESQUISA CLÍNICA Centro de Medicina Reprodutiva Dr Carlos Isaia Filho Ltda.

SOBREVIDA DE PACIENTES SUBMETIDOS A TRANSPLANTE DE FÍGADO EM UM CENTRO MÉDICO DE CURITIBA

SAD orientado a MODELO

INTRODUÇÃO DE FATOR MODERADOR DE USO EM PLANOS DE SAÚDE COMO ELEMENTO DE CORREÇÃO DA SINISTRALIDADE NO SEGURO- SAÚDE

Projeto Supervisionado

Uso do modelo logito generalizado na análise de dados da criminalidade em Santarém-PA.

Estatística II. Aula 7. Prof. Patricia Maria Bortolon, D. Sc.

Módulo 4. Construindo uma solução OLAP

Exercícios Teóricos Resolvidos

Aula 4 Estatística Conceitos básicos

Plano de Trabalho Docente Ensino Técnico

PROJETO DE ANÁLISE ESTATÍSTICA EXPERIMENTAL

Cálculo de volume de objetos utilizando câmeras RGB-D

COMPARAÇÃO DE DELINEAMENTOS DO TIPO CROSSOVER EM ESTUDOS DE BIOEQUIVALÊNCIA

Estatística e Probabilidade

ANÁLISE DAS ATITUDES EM RELAÇÃO À ESTATÍSTICA DE ALUNOS DOS CURSOS DE ADMINISTRAÇÃO DE EMPRESAS, FARMÁCIA E LICENCIATURA EM MATEMÁTICA

Introdução à Análise Química QUI 094 ERRO E TRATAMENTO DE DADOS ANALÍTICOS

Estatística II Antonio Roque Aula 9. Testes de Hipóteses

Transcrição:

MODIFICAÇÃO DO TESTE DE NORMALIDADE DE SHAPIRO-WILK MULTIVARIADO DO SOFTWARE ESTATÍSTICO R Roberta Bessa Veloso 1, Daniel Furtado Ferreira 2, Eric Batista Ferreira 3 INTRODUÇÃO A inferência estatística consiste em fazer generalizações sobre uma população com base nos dados amostrais. O problema de se inferir, a partir de dados mensurados pelo pesquisador, sobre os processos ou fenômenos físicos, biológicos ou sociais, que não se pode diretamente observar, é uma realidade constante. Neste contexto, todo o processo de inferência resume-se na estimação por intervalo e testes de hipóteses de parâmetros populacionais. Presume-se que os dados sejam provenientes de uma população normal devido ao fato de seu modelo populacional apresentar-se coerente a muitos fenômenos aleatórios. Para a realização de inferências no caso multivariado, seguem-se os mesmos princípios do caso univariado. Portanto, é de grande importância a normalidade dos dados, que generalizada pra muitas dimensões é conhecida por distribuição normal multivariada. A identificação de normalidade nos dados, seja no caso univariado ou multivariado, em geral é feita por meio de gráficos, entretanto a simples constatação via gráficos não é suficiente, principalmente no caso multivariado e, especificamente nas situações de muitas variáveis. Sendo assim, a utilização de testes estatísticos como meio de inferir sobre a normalidade é necessária. O procedimento de Royston (1983) prevê a estimação da estatística W de Shapiro- 1 Doutoranda em Estatística e Exp. Agrop., DEX/UFLA, bolsista FAPEMIG, e-mail: bessaveloso@yahoo.com.br. 2 Professor Associado I, DEX/UFLA, bolsista CNPq, e-mail: danielff@ufla.br. 3 Pós-doutorado, Departamento de Ciências Exatas (DEX/UFLA), bolsista CNPq, e-mail: ericbferreira@netscape.net. 1

Wilk para cada uma das variáveis, sendo a estatística final do teste baseada na soma dos seus valores. É utilizada uma transformação da estatística e a correlação entre as variáveis é utilizada para obter os graus de liberdade da distribuição de Qui-quadrado resultante (ROYSTON, 1983). Uma forma de avaliar o desempenho de um teste é mensurar tanto as taxas de erro tipo I, em diferentes condições da hipótese nula de normalidade, quanto o poder do teste, simulando amostras sob a hipótese alternativa de não-normalidade (neste caso, o poder). Um teste ideal, apesar de não existir, seria aquele que não rejeitasse para nenhuma amostra observada a hipótese nula verdadeira e rejeitasse 100% das vezes as hipóteses nulas falsas. Como isso não ocorre em situações reais, busca-se um teste que mantenha as taxas de erro tipo I menores ou iguais a um valor nominal de probabilidade escolhido e que tenha o maior poder possível. O software estatístico R (R DEVELOPMENT CORE TEAM, 2006) tem tido grande impacto no meio científico, e por ter código fonte aberto, tem recebido contribuições de pesquisadores de todo o mundo. A função mshapiro.test do pacote mvnormtest possibilita ao usuário aplicar o teste de normalidade multivariada de Shapiro-Wilk, que não trata da extensão multivariada de Royston (1983). Esta função é baseada na generalização multivariada do teste proposto por Domanski (1998), que se baseia em buscar uma combinação linear das p variáveis originais e aplicar o teste de Shapiro-Wilk nesta nova variável. A motivação para este trabalho surgiu a partir do interesse de avaliar o desempenho do teste multivariado de normalidade de Shapiro-Wilk implementado no R. Assim, foi proposto este trabalho objetivando-se comparar o desempenho do teste multivariado de normalidade de Shapiro-Wilk com a modificação proposta utilizando simulação Monte Carlo. METODOLOGIA Duas estratégias foram consideradas neste trabalho. A primeira teve o intuito de avaliar as taxas de erro tipo I dos teste de normalidade Shapiro-Wilk multivariado do 2

software R (MSWR) e com a modificação proposta (MSWM). A segunda foi delineada para avaliar o poder dos testes. Em ambos os casos, foi usada simulação Monte Carlo. Em cada simulação foram aplicados os testes de normalidade em um nível nominal préestabelecido de significância, sendo verificado se a hipótese nula foi ou não rejeitada. Este processo, em cada caso, foi repetido 10.000 vezes e a proporção de decisões incorretas no primeiro caso é a taxa de erro tipo I empírica e, no segundo caso, a proporção de decisões corretas é o poder empírico. Os valores da taxa de erro tipo I empírica foram comparados com o valor nominal por meio de um intervalo de confiança para proporções. Também foram comparadas as taxas de erro e o poder dos dois testes aplicados. RESULTADOS E DISCUSSÃO Modificação proposta Primeiramente, a matriz de dados observados Y, foi escrita da seguinte forma Y = p i=1 Xb i λi = em que o vetor b i e λ i foram definidos por p i=1 X t 1b i λ1 X t 2b i λ2. X t nb i λp, λ i = max b i b t isb i b t b i, i sendo S = W /(n 1) e o vetor b i correspondente são obtidos da solução do polinômio característico (S λ i I)b i = 0, para i = 1, 2,..., p. Logo, λ i e b i são o autovalor e o autovetor de S, com b t ib i = 1. Em seguida, é definida a combinação linear Z i = Xb i e o vetor Y i = p i Z i é submetido ao teste de normalidade de Shapiro-Wilk univariado, reportando o valor da 3

estatística W e o valor-p. Erro tipo I e poder Na Tabela 1 estão apresentadas as taxas de erro tipo I para os testes, (MSWM) e (MSWR) sob normalidade multivariada em função de ρ, p e n i. O intervalo de 99% de confiança para o valor nominal de 5% é [0,0457; 0,0542] e os resultados obtidos foram confrontados com este intervalo. O MSWM controlou o erro tipo I em todas as situações simuladas considerando o nível nominal de 5% de significância. O MSWR não controlou o erro tipo I em nenhuma das situações consideradas nesse trabalho. Este teste foi extremamente liberal apresentando taxas de erro superiores ao nível nominal considerado. TABELA 1: Taxas de erro tipo I para os dois testes, considerando normalidade multivariada, valor nominal de 5%, em função dos diferentes tamanhos amostrais (n i ), do número de variáveis p e da correlação ρ. n ρ MSWM MSWR 5 0 0,0478 0,3108* 5 0,1 0,0464 0,3173* 5 0,5 0,0478 0,3108* 5 0,9 0,0475 0,3143* 20 0,5 0,0467 0,1343* 30 0,5 0,0520 0,1217* 60 0,5 0,0543 0,1092* 100 0,5 0,0455 0,1077* 200 0,5 0,0480 0,0989* 300 0,5 0,0490 0,0942* 400 0,5 0,0497 0,0940* 500 0,5 0,0470 0,0914* 750 0,5 0,0528 0,0944* 1000 0,5 0,0550 0,0972* 2000 0,5 0,0503 0,0820* *Taxas de erro tipo I não pertencentes ao intervalo [0,0457; 0,0542]; ou seja, acima do nível nominal de 5%. 4

A correlação teve pouca ou nenhuma influência na taxa de erro de tipo I. Por exemplo, para n = 5, na Tabela 1, percebe-se que a correlação não alterou as taxas de erro tipo I dos testes. Por isso para os demais tamanhos da amostra foram apresentados os resultados pra ρ = 0, 5. À medida que o número de variáveis, p aumentou de 2 para 10, o teste MSWM manteve o erro tipo I sob controle ao contrário do MSWR que apresentou taxas de erro igual a 100% (resultados não apresentados). Para a avaliação do poder destes testes sob, H 1, optou-se por fixar a correlação em ρ = 0, 5 por não afetar a performance dos testes. Os resultados simulados permitiram detectar uma considerável superioridade do teste MSWM em relação ao teste MSWR. CONCLUSÕES O teste de normalidade de Shapiro-Wilk multivariado modificado neste trabalho obteve êxito quanto ao controle do erro tipo I e apresentou alto poder. O teste implementado no R apresentou taxas de erro tipo I muito elevadas e não deve ser recomendado. REFERÊNCIAS BIBLIOGRÁFICAS DOMANSKI, C. Wlasnosci testu wielowymiarowej normalnosci shapiro-wilka i jego zastosowanie. R DEVELOPMENT CORE TEAM. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria, 2006. ISBN 3-900051-07-0. ROYSTON, J. P. Some techniques for assessing multivariate normality based on the Shapiro-Wilk W. Applied Statistics - Journal of the Royal Statistical Society - Series C, 32(2):121 133, 1983b. 5