UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE ESTATÍSTICA E INVESTIGAÇÃO OPERACIONAL ANÁLISE DE CORRESPONDÊNCIAS GENERALIZADA SÉRGIO DANIEL NEVES PEREIRA NAITO DISSERTAÇÃO PARA A OBTENÇÃO DO GRAU DE MESTRE EM BIOESTATÍSTICA 2007
UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE ESTATÍSTICA E INVESTIGAÇÃO OPERACIONAL ANÁLISE DE CORRESPONDÊNCIAS GENERALIZADA SÉRGIO DANIEL NEVES PEREIRA NAITO SOB ORIENTAÇÃO DA PROF.ª DOUTORA MARGARIDA MENDES LEAL DISSERTAÇÃO PARA A OBTENÇÃO DO GRAU DE MESTRE EM BIOESTATÍSTICA 2007
RESUMO Nesta dissertação são discutidos vários tópicos da Análise de Correspondências, teóricos e práticos. A Análise de Correspondências é um método exploratório de análise multivariada essencialmente delineado para o estudo de dados categóricos. Tipicamente, a Análise de Correspondências é aplicada a tabelas de contingência. Porém, algumas adaptações do método permitem a sua extensão a tabelas multidimensionais. Esta vertente multidimensional da Análise de Correspondências tem um interesse especial, pois permite a análise de grandes matrizes de dados. A importância deste método é que permite que as relações entre as demais variáveis categóricas possam ser observadas através de gráficos bidimensionais. Ainda nesta dissertação, são apresentados métodos que surgiram recentemente, relacionados com a Análise de Correspondências, e para os quais sugere-se uma combinação dos mesmos de forma a criar uma família de métodos com o nome de Análise de Correspondências Generalizada. Finaliza-se o presente trabalho com uma aplicação prática da Análise de Correspondências, na sua vertente múltipla, com o objectivo de analisar um conjunto de dados reais de elevada importância na investigação médica. Palavras-chave: Análise de Correspondências, Análise de Correspondências Múltiplas, Distância de Hellinger, Análise de Correspondências Generalizada e Amnésia Global Transitória.
ABSTRACT In this thesis several topics in correspondence analysis, both theoretical and applied, are described. Correspondence Analysis is primarily an exploratory method for inspecting multivariate categorical data. Typically Correspondence Analysis is applied to a so-called contingency matrix. However, extensions and adaptations of the method exist and make it possible to apply Correspondence Analysis to multidimensional data. This latter type has a special interest, since it allows the study of larger data matrices. This method has an extraordinary characteristic, which is the possibility of analyzing relationships between categorical variables simply by looking at Correspondence Analysis plots. Also in this thesis, we show recent developed methods similar to Correspondence Analysis, and suggest a combination of those in a family of methods called Generalized Correspondence Analysis. We finalize this work with a practical application of Correspondence Analysis, in its multiple form, with the objective of analyzing a set of real data with high importance in medical investigation. Keywords: Correspondence Analysis, Multiple Correspondence Analysis, Hellinger distance, Generalized Correspondence Analysis and Transient Global Amnesia.
Aos meus País e Irmãos. À Marina.
Agradecimentos À minha orientadora, Professora Margarida Mendes Leal, por toda a ajuda, apoio e sugestões feitas ao longo deste projecto, que contribuíram inquestionavelmente para uma melhoria substancial na apresentação final deste trabalho. Agradeço-lhe ainda a indicação do tema. À Professora Lucília Carvalho, pelo incentivo inicial à realização de um segundo ciclo, e também pela indicação do estudo que é tratado na parte prática desta dissertação. Gostaria também de manifestar o meu agradecimento ao corpo docente do Departamento de Estatística e Investigação Operacional da Faculdade de Ciências da Universidade de Lisboa, por todos os ensinamentos que me transmitiram ao longo da licenciatura e parte curricular do Mestrado, que não só contribuíram para o meu crescente interesse e gosto pela Estatística, mas também são, indiscutivelmente, uma mais-valia para o meu futuro. À Teresa Melo e ao Professor José Ferro do Departamento de Neurologia do Hospital de Santa Maria, pela cedência dos dados utilizados nesta tese e a oportunidade de trabalhar sobre os mesmos. Não podia deixar de agradecer aos meus superiores no Departamento de Risco Global do Banco Espírito Santo, ao director Luís Seabra e sub-directora Ana Doroana, por todo o apoio e compreensão manifestados durante a realização deste trabalho. Agradeço em especial aos meus Pais, os grandes financiadores deste trabalho, todo o esforço que fizeram ao longo destes anos para proporcionarem aos seus filhos todas as oportunidades que não tiveram. À minha namorada, Marina Castanho, pelo seu inestimável apoio e incentivo, fundamentais para a realização desta tese. Ao meu irmão gémeo, pela amabilidade e prontidão com que se comprometeu a ajudar-me nos últimos dias da realização deste trabalho. Agradeço também aos restantes familiares e amigos a amizade e tolerância que tiveram durante este tempo, que fez de mim um amigo ausente. A todos, muito obrigado.
Conteúdo 1. Introdução... 1 1.1 Tema e Objectivos... 1 1.2 Enquadramento Geral... 2 1.3 Estrutura da Dissertação... 4 2. Introdução aos Métodos Factoriais... 7 2.1 Conceitos Fundamentais... 8 2.2 Análise das Nuvens de Pontos... 10 2.2.1 Análise em R... 11 2.2.2 Análise em R... 14 2.3 Fórmulas de Transição... 14 3. Análise de Correspondências... 17 3.1 Introdução... 17 3.2 Metodologia... 17 3.2.1 Conceitos Fundamentais... 18 3.2.1.1 Matriz Inicial de Dados... 18 3.2.1.2 Matriz de Correspondências... 19 3.2.1.3 Definição de Massa... 21 3.2.1.4 Perfis... 22 3.2.1.5 Conceito de Nuvem... 25 3.2.1.6 Centro de Gravidade... 25 3.2.1.7 Distância... 26 3.2.1.8 Inércia... 28 3.2.2 Projecção no Espaço Euclidiano... 31 3.2.2.1 Esquema Geral... 31 3.2.2.2 Abordagem Intuitiva... 33 3.2.2.2.1 Análise em R... 35 3.2.2.2.2 Análise em R... 37 3.2.2.2.3 Representação Simultânea... 37
3.2.2.3 Decomposição em Valores Singulares Generalizada... 39 3.2.2.3.1 Aproximação da Matriz de Correspondências... 41 3.2.2.3.2 Aproximação da Matriz dos Perfis... 43 3.2.3 Elementos Suplementares... 44 3.2.4 Reconstituição da Matriz de Partida... 45 3.2.5 Interpretação dos Resultados... 48 3.2.5.1 Proporção de Inércia... 48 3.2.5.2 Contribuições... 49 3.2.5.2.1 Absolutas... 50 3.2.5.2.2 Relativas... 51 3.2.5.3 Interpretação Gráfica... 52 3.3 Casos Particulares... 54 3.4 Tópicos Adicionais... 55 4. Análise de Correspondências Múltiplas... 57 4.1 Introdução... 58 4.2 Metodologia... 59 4.2.1 Conceitos Fundamentais... 60 4.2.1.1 Matriz Concatenada... 60 4.2.1.2 Matriz Disjuntiva Completa... 65 4.2.1.3 Matriz de Burt... 68 4.2.1.4 Inércias Ajustadas... 71 4.2.2 Equivalência entre Diferentes Abordagens... 73 4.2.2.1 Matriz Disjuntiva Completa e Tabela Contingência... 74 4.2.2.2 Matriz Disjuntiva Completa e Matriz de Burt... 76 4.3 Método Alternativo... 77 4.3.1 Análise de Correspondências Conjuntas... 78 5. Análise de Correspondências Generalizada... 83 5.1 Spectral Mapping... 84 5.2 Análise de Correspondências via Distância de Hellinger... 88 5.3 Generalização da Análise de Correspondências... 94
6. Caso Prático - Amnésia Global Transitória... 97 6.1 Introdução ao Tema... 98 6.2 Introdução ao Estudo... 98 6.3 Objectivos... 99 6.4 Estudo Estatístico... 100 6.4.1 Análise Exploratória de Dados... 100 6.4.1.1 Características Demográficas... 101 6.4.1.2 Características da AGT... 103 6.4.1.3 Antecedentes e Factores de Risco... 108 6.4.1.4 Exames Complementares... 111 6.4.2 Aplicação da ACM... 111 6.5 Conclusão... 120 7. Conclusões e Notas Finais... 123 Anexos... 125 A. Demonstração do Primeiro Resultado em 4.2.2.1... 126 B. Demonstração do Segundo Resultado em 4.2.2.1... 126 C. Demonstração do Resultado em 4.2.2.2... 129 D. Rotinas em R... 130 D.1 Análise de Correspondências... 130 D.2 Análise de Correspondências Múltiplas... 132 D.3 Análise de Correspondências Conjuntas... 137 D.4 Análise de Correspondências Generalizada... 140 D.5 Transição entre a AC e o SM... 143 E. ACM via distância de Hellinger... 144 F. Inércias e contribuições das colunas... 146 Bibliografia... 149
Lista de Figuras 2.1 Representação das nuvens em R e R... 8 2.2 Projecção de um ponto num vector... 11 3.1 Plano resultante da projecção dos indivíduos caracterizados pelas categorias 1,2 e 3... 23 3.2 Esquema das nuvens de pontos... 29 3.3 Esquema geral da AC... 32 3.4 Matriz inicial contendo uma coluna e linha suplementar genérica... 44 3.5 Projecção ortogonal do elemento i sobre o eixo α, pr α (i)... 51 4.1 Esquema ilustrativo de uma tabela tridimensional... 58 4.2 Esquema ilustrativo de uma tabela tridimensional considerando i = 6, j = 5 e q = 4... 58 4.3 Associação entre cada um dos pares de variáveis (I,J), (I,K) e (J,K)... 59 4.4 AC da duração face à idade... 61 4.5 AC da duração face ao Precipitante da crise... 62 4.6 AC da duração face ao historial de hipertensão arterial por sexo... 62 4.7 AC sobre a tabela 4.... 64 4.8 Conversão de uma tabela na forma disjuntiva completa... 66 4.9 ACM via matriz disjuntiva completa... 67 4.10 Esquema de uma tabela de Burt... 69 4.11 Conversão de uma tabela disjuntiva completa em tabela de Burt... 69 4.12 ACM via matriz de Burt... 71 4.13 ACM via matriz de disjuntiva completa... 72 4.14 ACC da duração face ao historial de hipertensão arterial por sexo... 80 5.1 SM da duração face ao historial de hipertensão arterial por sexo... 87 5.2 ACDH da duração face à idade... 93 6.1 Gráfico circular do género sexual... 101 6.2 Gráfico densidade, gráfico de barras e Box-plot do género sexual... 101 6.3 Gráfico de densidades, gráfico de barras com perfis e Box-plot dos géneros sexuais.. 102 6.4 Gráfico de densidade, gráfico de barras e Box-plot da duração... 103 6.5 Gráfico de densidades, gráfico de barras com perfis e Box-plot da duração por Sexo. 104 6.6 Gráficos de dispersão e histogramas da Idade vs Duração... 105 6.7 Gráfico de barras dos desencadeantes... 105 6.8 Gráfico de barras dos desencadeantes distintos por género sexual... 106 6.9 Gráficos circulares dos sintomas acompanhantes... 107 6.10 Gráfico de barras com os sintomas acompanhantes individualmente distribuídos... 107 6.11 Gráficos de barras com os sintomas acompanhantes individualmente distribuídos por género sexual... 108 6.12 Gráfico de barras dos antecedentes ou factores de risco... 109
6.13 Gráfico de barras com o número de antecedentes ou factores de risco... 109 6.14 Gráfico de barras dos antecedentes ou factores de risco distintos por Género sexual 110 6.15 Gráficos circulares dos resultados do exame e os resultados por Género sexual... 111 6.16 Gráfico resultante da ACM dos dados da AGT... 113 6.17 Zoom do gráfico resultante da ACM... 114 6.18 Dendrograma de apoio ao resultado da ACM... 114 6.19 Gráfico resultante da ACM... 116 6.20 Zoom do gráfico resultante da ACM, e respectivo Dendrograma... 117 6.21 Gráfico resultante da ACM... 118 6.22 Zoom do gráfico resultante da ACM, e respectivo Dendrograma... 119 Lista de Tabelas 4.1 Tabela inicial concatenada... 61 5.1 Parâmetros da ACG... 96