UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE ESTATÍSTICA E INVESTIGAÇÃO OPERACIONAL

Documentos relacionados
ANÁLISE DE CORRESPONDÊNCIAS MÚLTIPLAS

ANÁLISE DE CORRESPONDÊNCIAS GENERALIZADA

Capítulo I INTRODUÇÃO. 1.1 Tema e Objectivos

Caso Prático: AMNÉSIA GLOBAL TRANSITÓRIA

Análise de Correspondências para Variáveis Ordinais

Anexo 1 Análise de correspondências simples

UNIVERSIDADE FEDERAL DO RIO DE JANEIRO INSTITUTO COPPEAD DE ADMINISTRAÇÃO ANDRE TAUCEI SCHELLENBERGER

Análise de Correspondência em acessos de pimenta

Michel Lacerda Baitelli. Posicionamento Competitivo dentro dos Grupos Estratégicos da Indústria de Higiene Pessoal e Cosméticos

Resumo. Os conflitos organizacionais são uma realidade incontornável no seio das

Métodos Quantitativos Aplicados

Universidade do Minho Instituto de Ciências Sociais. Victor Manuel dos Santos Amaral Temas e Fontes na Imprensa Regional da Cidade da Guarda

PERCEPÇÃO DE APOIO ORGANIZACIONAL EMPENHAMENTO ORGANIZACIONAL: QUE RELAÇÃO? Catarina José Faustino Honório

Análise de correspondência

Capítulo III ANÁLISE DE CORRESPONDÊNCIAS. 3.1 Introdução. 3.2 Metodologia

Relatório de Estágio apresentado para cumprimento dos requisitos necessários à obtenção do grau de Mestre em Gestão do Território Área de Planeamento

Pablo Vinícius Ferreira Telles. Amostragem de Ruído Azul em Múltiplas Classes para Superfícies Poligonais. Dissertação de Mestrado

S I G I L O B A N C Á R I O

A COLA QUE UNE A COMUNIDADE: COMPARAÇÃO DO SENTIDO DE COMUNIDADE ENTRE UMA AMOSTRA CLÍNICA E NÃO-CLÍNICA

Margarida Isabel A Auditoria Tributária e a Deteção. Melo de Oliveira de Comportamento Evasivo

Carry Trade e Diferencial de Juros: Análise Empírica no Brasil

ANÁLISE DAS CORRESPONDÊNCIAS MÚLTIPLAS

UM ESTUDO SOBRE OS VALORES NO CONSUMO DE PRODUTOS DE BELEZA POR MULHERES DE BAIXA RENDA

AGRADECIMENTOS. A todos os que não refiro mas que deram o seu contributo.

DANIEL CHRISTIAN HENRIQUE

Métodos Quantitativos Aplicados

Finanças Empresariais Nuno Côrte-Real João F. M. Pinto

ANÁLISE MULT1VARIADA; UM EXEMPLO USANDO MODELO LOG-LINEAR

Programas de fidelização e seu impacto no regime de concorrência na indústria aérea americana

ANABELA VIRGÍNIA DOS SANTOS FLORES DA ROCHA ESTIMAÇÃO ROBUSTA EM MODELOS LINEARES DE EQUAÇÕES SIMULTÂNEAS

A AQUISIÇÃO DE COMPORTAMENTOS ALIMENTARES SAUDÁVEIS: CONTRIBUTO DOS MODELOS TEÓRICOS, DOS PROGRAMAS DE INTERVENÇÃO E DOS TÉCNICOS DE SAÚDE

AGRADECIMENTOS. Muito Obrigado a todos! iii

Crime e Poupança: Teoria e Evidências para o Brasil

COMUNICAÇÃO ENTRE A EQUIPE DE ENFERMAGEM / PACIENTES / FAMILIARES EM UTI: uma revisão bibliográfica.

Realce de Imagens no Domínio da Transformada

Previsão da Produção Industrial do Brasil: Uma Aplicação do Modelo de Índice de Difusão Linear

Agradecimentos. Aos meus amigos pela troca de ideias, pelo apoio e ajuda constante ao longo deste percurso académico.

Glomerulonefrite Membranosa Idiopática: um estudo de caso

Sérgio Queiroz de Medeiros. Correspondência entre PEGs e Classes de Gramáticas Livres de Contexto. Tese de Doutorado

ESCOLA SUPERIOR DE TECNOLOGIA

Um Estudo sobre a Importância das Características dos Projetos de Patrocínio na Visão das Empresas Patrocinadoras de Eventos

Análise e Avaliação do Equity Premium Puzzle no Mercado Acionário Brasileiro sob diferentes Contextos Econômicos

VALOR ECONÓMICO DA ONDA

UMA ANÁLISE DA RELAÇÃO ENTRE ACIDENTES DE TRÁFEGO E VARIÁVEIS SOCIAIS, ECONÔMICAS, URBANAS E DE MOBILIDADE NA CIDADE DO RIO DE JANEIRO.

O CONSUMO DAS FAMÍLIAS DE BAIXA RENDA DA REGIÃO METROPOLITANA DE RECIFE: PADRÕES E EVOLUÇÃO DE 2002 A 2009

BIG ENCLOSED ISLAND, DE DANIEL DE SÁ:

DISSERTAÇÃO DE MESTRADO INSTITUTO DE RELAÇÕES INTERNACIONAIS

Da sublimação à idealização: implicações psíquicas das transformações no mundo do trabalho

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL - UFFS CAMPUS ERECHIM LICENCIATURA EM PEDAGOGIA DANIÊ REGINA MIKOLAICZIK

Avaliação do padrão e número de sítios de fosforilação (EPIYA) da proteína CagA de H. pylori e risco de carcinoma gástrico e úlcera duodenal

Francisco Benjamim Filho. XHITS: Estendendo o Algoritmo HITS para Extração de Tópicos na WWW DISSERTAÇÃO DE MESTRADO

University of Aveiro Department of Mathematics Maria Madalena Gomes Fonseca. Modelo Bayesiano do Aluno no Cálculo com Várias

BOOTSTRAP PONDERADO:

8 JÚLIO CESAR R. PEREIRA

Análise de Correspondência (ANACOR)

Métodos Quantitativos Aplicados

OS SIG COMO SUPORTE À CARTOGRAFIA GEOLÓGICA E DE RISCOS

Inválido para efeitos de certificação

UNIVERSIDADE FEDERAL DA BAHIA FACULDADE DE DIREITO PROGRAMA DE PÓS-GRADUAÇÃO EM DIREITO MESTRADO EM RELAÇÕES SOCIAIS E NOVOS DIREITOS

UNIVERSIDADE FEDERAL DE GOIÁS FACULDADE DE ARTES VISUAIS PROGRAMA DE PÓS-GRADUAÇÃO EM ARTE E CULTURA VISUAL MESTRADO THAIS RODRIGUES OLIVEIRA

Rafaela Albuquerque Botelho. Cumprimento dos requisitos de divulgação dos Ativos Fixos Tangíveis

Identificação precoce dos transtornos do espectro autista: um estudo de vídeos familiares

Iam Vita Jabour. O Impacto de Atributos Estruturais na Identificação de Tabelas e Listas em Documentos HTML. Dissertação de Mestrado

Descrição do Método de Análise de Clusters

Área de especialização. Políticas de Administração e Gestão de Serviços de Saúde

Relação entre Governança Corporativa e Remuneração de Executivos no Brasil

A c o m u n i c a ç ã o m a t e m á t i c a e m c r i a n ç a s c o m N E E. Dedicatória

Gerenciamento de projetos no âmbito da Economia Criativa Um estudo de caso das Incubadoras Rio Criativo

Avaliação Probabilística de Reservas de Óleo e Gás Considerando o Efeito da Variação do Preço do Óleo

Equações de Previsão dos Movimentos Sísmicos à Superfície para a Região Autónoma dos Açores

UM MODELO DE GERENCIAMENTO DE PROJETOS BASEADO NAS METODOLOGIAS ÁGEIS DE DESENVOLVIMENTO DE SOFTWARE E NOS PRINCÍPIOS DA PRODUÇÃO ENXUTA

ANÁLISE DE CORRESPONDÊNCIAS (ASSOCIAÇÕES)

Juliana Medina Costa. A contribuição do princípio da adaptabilidade do procedimento para a efetividade processual Coimbra, fls.

Recuperação e Requalificação Antiga Fábrica de Lanifícios - Covilhã

UNIVERSIDADE DE COIMBRA FACULDADE DE CIÊNCIAS DO DESPORTO E EDUCAÇÃO FÍSICA

Finanças Comportamentais: Uma Aplicação da Teoria do Prospecto na Tomada de Decisão de Investidores no Brasil

ESTUDO DA IDEAÇÃO SUICIDA

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga

Theo Cotrim Martins. Leis de dividendo mínimo obrigatório protegem acionistas minoritários? Dissertação de Mestrado

Adriano Medeiros dos Santos. Suporte a Componentes Compostos Para o Middleware SCS. Dissertação de Mestrado

Aplicando a Metodologia de Diebold e Li à Análise da Estrutura a Termo da Taxa de Juros Brasileira

RELATÓRIO DE ESTÁGIO DA PRÁTICA DE ENSINO SUPERVISIONADA

Luís Miguel Pereira Freitas. Mudança Conceptual no Tema Terra no Espaço com base na Interdisciplinaridade em Ciências Físicas e Naturais no 3º Ciclo

CECILIA FRANCO SISTERNAS FIORENZO DO NASCIMENTO O MERCADO INTERNO COMO PATRIMÔNIO NACIONAL

UNIVERSIDADE FEDERAL DO CEARÁ - UFC CURSO DE PÓS-GRADUAÇÃO EM ECONOMIA - CAEN MESTRADO EM ECONOMIA

Resumo Palavras-chave:

Avaliação do Sistema de Avaliação de Alunos da Disciplina de Pediatria I 3:1 Parte

Ementa Cursos de Verão do Núcleo de Epidemiologia e Bioestatística (NEB) 2016

Palavras-Chave: Pesticidas, estatística multivariada, dados censurados, directiva das águas subterrâneas

Entropia de Rényi e Informação Mútua de Cauchy-Schwartz Aplicadas ao Algoritmo de Seleção de Variáveis MIFS-U: Um Estudo Comparativo

Análise de correspondência aplicada ao estudo da qualidade de cafés especiais

Estatística Aplicada à Administração II

Ficha de Unidade Curricular Ano lectivo /15

As provas da existência de Deus nas Meditações Metafísicas de René Descartes

English version at the end of this document

À minha Mãe e ao meu Pai, ao meu marido, Nuno e ao meu filho, Renato, com muito amor e carinho.

A CULTURA PRISIONAL E A REINCIDÊNCIA CRIMINAL: O CASO DO ESTABELECIMENTO PRISIONAL DE VIANA EM ANGOLA. André Carlos Maquinguir dos Santos

TESE DE MESTRADO EM ESTUDOS DA PAZ E DA GUERRA NAS NOVAS RELAÇÕES INTERNACIONAIS

Transcrição:

UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE ESTATÍSTICA E INVESTIGAÇÃO OPERACIONAL ANÁLISE DE CORRESPONDÊNCIAS GENERALIZADA SÉRGIO DANIEL NEVES PEREIRA NAITO DISSERTAÇÃO PARA A OBTENÇÃO DO GRAU DE MESTRE EM BIOESTATÍSTICA 2007

UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE ESTATÍSTICA E INVESTIGAÇÃO OPERACIONAL ANÁLISE DE CORRESPONDÊNCIAS GENERALIZADA SÉRGIO DANIEL NEVES PEREIRA NAITO SOB ORIENTAÇÃO DA PROF.ª DOUTORA MARGARIDA MENDES LEAL DISSERTAÇÃO PARA A OBTENÇÃO DO GRAU DE MESTRE EM BIOESTATÍSTICA 2007

RESUMO Nesta dissertação são discutidos vários tópicos da Análise de Correspondências, teóricos e práticos. A Análise de Correspondências é um método exploratório de análise multivariada essencialmente delineado para o estudo de dados categóricos. Tipicamente, a Análise de Correspondências é aplicada a tabelas de contingência. Porém, algumas adaptações do método permitem a sua extensão a tabelas multidimensionais. Esta vertente multidimensional da Análise de Correspondências tem um interesse especial, pois permite a análise de grandes matrizes de dados. A importância deste método é que permite que as relações entre as demais variáveis categóricas possam ser observadas através de gráficos bidimensionais. Ainda nesta dissertação, são apresentados métodos que surgiram recentemente, relacionados com a Análise de Correspondências, e para os quais sugere-se uma combinação dos mesmos de forma a criar uma família de métodos com o nome de Análise de Correspondências Generalizada. Finaliza-se o presente trabalho com uma aplicação prática da Análise de Correspondências, na sua vertente múltipla, com o objectivo de analisar um conjunto de dados reais de elevada importância na investigação médica. Palavras-chave: Análise de Correspondências, Análise de Correspondências Múltiplas, Distância de Hellinger, Análise de Correspondências Generalizada e Amnésia Global Transitória.

ABSTRACT In this thesis several topics in correspondence analysis, both theoretical and applied, are described. Correspondence Analysis is primarily an exploratory method for inspecting multivariate categorical data. Typically Correspondence Analysis is applied to a so-called contingency matrix. However, extensions and adaptations of the method exist and make it possible to apply Correspondence Analysis to multidimensional data. This latter type has a special interest, since it allows the study of larger data matrices. This method has an extraordinary characteristic, which is the possibility of analyzing relationships between categorical variables simply by looking at Correspondence Analysis plots. Also in this thesis, we show recent developed methods similar to Correspondence Analysis, and suggest a combination of those in a family of methods called Generalized Correspondence Analysis. We finalize this work with a practical application of Correspondence Analysis, in its multiple form, with the objective of analyzing a set of real data with high importance in medical investigation. Keywords: Correspondence Analysis, Multiple Correspondence Analysis, Hellinger distance, Generalized Correspondence Analysis and Transient Global Amnesia.

Aos meus País e Irmãos. À Marina.

Agradecimentos À minha orientadora, Professora Margarida Mendes Leal, por toda a ajuda, apoio e sugestões feitas ao longo deste projecto, que contribuíram inquestionavelmente para uma melhoria substancial na apresentação final deste trabalho. Agradeço-lhe ainda a indicação do tema. À Professora Lucília Carvalho, pelo incentivo inicial à realização de um segundo ciclo, e também pela indicação do estudo que é tratado na parte prática desta dissertação. Gostaria também de manifestar o meu agradecimento ao corpo docente do Departamento de Estatística e Investigação Operacional da Faculdade de Ciências da Universidade de Lisboa, por todos os ensinamentos que me transmitiram ao longo da licenciatura e parte curricular do Mestrado, que não só contribuíram para o meu crescente interesse e gosto pela Estatística, mas também são, indiscutivelmente, uma mais-valia para o meu futuro. À Teresa Melo e ao Professor José Ferro do Departamento de Neurologia do Hospital de Santa Maria, pela cedência dos dados utilizados nesta tese e a oportunidade de trabalhar sobre os mesmos. Não podia deixar de agradecer aos meus superiores no Departamento de Risco Global do Banco Espírito Santo, ao director Luís Seabra e sub-directora Ana Doroana, por todo o apoio e compreensão manifestados durante a realização deste trabalho. Agradeço em especial aos meus Pais, os grandes financiadores deste trabalho, todo o esforço que fizeram ao longo destes anos para proporcionarem aos seus filhos todas as oportunidades que não tiveram. À minha namorada, Marina Castanho, pelo seu inestimável apoio e incentivo, fundamentais para a realização desta tese. Ao meu irmão gémeo, pela amabilidade e prontidão com que se comprometeu a ajudar-me nos últimos dias da realização deste trabalho. Agradeço também aos restantes familiares e amigos a amizade e tolerância que tiveram durante este tempo, que fez de mim um amigo ausente. A todos, muito obrigado.

Conteúdo 1. Introdução... 1 1.1 Tema e Objectivos... 1 1.2 Enquadramento Geral... 2 1.3 Estrutura da Dissertação... 4 2. Introdução aos Métodos Factoriais... 7 2.1 Conceitos Fundamentais... 8 2.2 Análise das Nuvens de Pontos... 10 2.2.1 Análise em R... 11 2.2.2 Análise em R... 14 2.3 Fórmulas de Transição... 14 3. Análise de Correspondências... 17 3.1 Introdução... 17 3.2 Metodologia... 17 3.2.1 Conceitos Fundamentais... 18 3.2.1.1 Matriz Inicial de Dados... 18 3.2.1.2 Matriz de Correspondências... 19 3.2.1.3 Definição de Massa... 21 3.2.1.4 Perfis... 22 3.2.1.5 Conceito de Nuvem... 25 3.2.1.6 Centro de Gravidade... 25 3.2.1.7 Distância... 26 3.2.1.8 Inércia... 28 3.2.2 Projecção no Espaço Euclidiano... 31 3.2.2.1 Esquema Geral... 31 3.2.2.2 Abordagem Intuitiva... 33 3.2.2.2.1 Análise em R... 35 3.2.2.2.2 Análise em R... 37 3.2.2.2.3 Representação Simultânea... 37

3.2.2.3 Decomposição em Valores Singulares Generalizada... 39 3.2.2.3.1 Aproximação da Matriz de Correspondências... 41 3.2.2.3.2 Aproximação da Matriz dos Perfis... 43 3.2.3 Elementos Suplementares... 44 3.2.4 Reconstituição da Matriz de Partida... 45 3.2.5 Interpretação dos Resultados... 48 3.2.5.1 Proporção de Inércia... 48 3.2.5.2 Contribuições... 49 3.2.5.2.1 Absolutas... 50 3.2.5.2.2 Relativas... 51 3.2.5.3 Interpretação Gráfica... 52 3.3 Casos Particulares... 54 3.4 Tópicos Adicionais... 55 4. Análise de Correspondências Múltiplas... 57 4.1 Introdução... 58 4.2 Metodologia... 59 4.2.1 Conceitos Fundamentais... 60 4.2.1.1 Matriz Concatenada... 60 4.2.1.2 Matriz Disjuntiva Completa... 65 4.2.1.3 Matriz de Burt... 68 4.2.1.4 Inércias Ajustadas... 71 4.2.2 Equivalência entre Diferentes Abordagens... 73 4.2.2.1 Matriz Disjuntiva Completa e Tabela Contingência... 74 4.2.2.2 Matriz Disjuntiva Completa e Matriz de Burt... 76 4.3 Método Alternativo... 77 4.3.1 Análise de Correspondências Conjuntas... 78 5. Análise de Correspondências Generalizada... 83 5.1 Spectral Mapping... 84 5.2 Análise de Correspondências via Distância de Hellinger... 88 5.3 Generalização da Análise de Correspondências... 94

6. Caso Prático - Amnésia Global Transitória... 97 6.1 Introdução ao Tema... 98 6.2 Introdução ao Estudo... 98 6.3 Objectivos... 99 6.4 Estudo Estatístico... 100 6.4.1 Análise Exploratória de Dados... 100 6.4.1.1 Características Demográficas... 101 6.4.1.2 Características da AGT... 103 6.4.1.3 Antecedentes e Factores de Risco... 108 6.4.1.4 Exames Complementares... 111 6.4.2 Aplicação da ACM... 111 6.5 Conclusão... 120 7. Conclusões e Notas Finais... 123 Anexos... 125 A. Demonstração do Primeiro Resultado em 4.2.2.1... 126 B. Demonstração do Segundo Resultado em 4.2.2.1... 126 C. Demonstração do Resultado em 4.2.2.2... 129 D. Rotinas em R... 130 D.1 Análise de Correspondências... 130 D.2 Análise de Correspondências Múltiplas... 132 D.3 Análise de Correspondências Conjuntas... 137 D.4 Análise de Correspondências Generalizada... 140 D.5 Transição entre a AC e o SM... 143 E. ACM via distância de Hellinger... 144 F. Inércias e contribuições das colunas... 146 Bibliografia... 149

Lista de Figuras 2.1 Representação das nuvens em R e R... 8 2.2 Projecção de um ponto num vector... 11 3.1 Plano resultante da projecção dos indivíduos caracterizados pelas categorias 1,2 e 3... 23 3.2 Esquema das nuvens de pontos... 29 3.3 Esquema geral da AC... 32 3.4 Matriz inicial contendo uma coluna e linha suplementar genérica... 44 3.5 Projecção ortogonal do elemento i sobre o eixo α, pr α (i)... 51 4.1 Esquema ilustrativo de uma tabela tridimensional... 58 4.2 Esquema ilustrativo de uma tabela tridimensional considerando i = 6, j = 5 e q = 4... 58 4.3 Associação entre cada um dos pares de variáveis (I,J), (I,K) e (J,K)... 59 4.4 AC da duração face à idade... 61 4.5 AC da duração face ao Precipitante da crise... 62 4.6 AC da duração face ao historial de hipertensão arterial por sexo... 62 4.7 AC sobre a tabela 4.... 64 4.8 Conversão de uma tabela na forma disjuntiva completa... 66 4.9 ACM via matriz disjuntiva completa... 67 4.10 Esquema de uma tabela de Burt... 69 4.11 Conversão de uma tabela disjuntiva completa em tabela de Burt... 69 4.12 ACM via matriz de Burt... 71 4.13 ACM via matriz de disjuntiva completa... 72 4.14 ACC da duração face ao historial de hipertensão arterial por sexo... 80 5.1 SM da duração face ao historial de hipertensão arterial por sexo... 87 5.2 ACDH da duração face à idade... 93 6.1 Gráfico circular do género sexual... 101 6.2 Gráfico densidade, gráfico de barras e Box-plot do género sexual... 101 6.3 Gráfico de densidades, gráfico de barras com perfis e Box-plot dos géneros sexuais.. 102 6.4 Gráfico de densidade, gráfico de barras e Box-plot da duração... 103 6.5 Gráfico de densidades, gráfico de barras com perfis e Box-plot da duração por Sexo. 104 6.6 Gráficos de dispersão e histogramas da Idade vs Duração... 105 6.7 Gráfico de barras dos desencadeantes... 105 6.8 Gráfico de barras dos desencadeantes distintos por género sexual... 106 6.9 Gráficos circulares dos sintomas acompanhantes... 107 6.10 Gráfico de barras com os sintomas acompanhantes individualmente distribuídos... 107 6.11 Gráficos de barras com os sintomas acompanhantes individualmente distribuídos por género sexual... 108 6.12 Gráfico de barras dos antecedentes ou factores de risco... 109

6.13 Gráfico de barras com o número de antecedentes ou factores de risco... 109 6.14 Gráfico de barras dos antecedentes ou factores de risco distintos por Género sexual 110 6.15 Gráficos circulares dos resultados do exame e os resultados por Género sexual... 111 6.16 Gráfico resultante da ACM dos dados da AGT... 113 6.17 Zoom do gráfico resultante da ACM... 114 6.18 Dendrograma de apoio ao resultado da ACM... 114 6.19 Gráfico resultante da ACM... 116 6.20 Zoom do gráfico resultante da ACM, e respectivo Dendrograma... 117 6.21 Gráfico resultante da ACM... 118 6.22 Zoom do gráfico resultante da ACM, e respectivo Dendrograma... 119 Lista de Tabelas 4.1 Tabela inicial concatenada... 61 5.1 Parâmetros da ACG... 96