ANÁLISE DE CORRESPONDÊNCIAS (ASSOCIAÇÕES)

Documentos relacionados
Estatística para Geografia. Rio, 30/08/2017

Análise de Correspondência (ANACOR)

Métodos Quantitativos Aplicados

Análise de correspondência

Aula 16: Análise de Aderência e Associação

Medidas de Semelhança

8 JÚLIO CESAR R. PEREIRA

TESTE DO QUI-QUADRADO DE INDEPENDÊNCIA

Análise Fatorial. Matriz R de coeficientes de correlação: Não confundir análise de componentes principais com análise fatorial!

Análise de Correspondência em acessos de pimenta

Métodos Empíricos de Pesquisa I. } Análise Bidimensional

Análise Multivariada Aplicada à Contabilidade

i i Análise Estatística de Dados Geológicos Multivariados Prova 5 1/9/2011 Maluhy & Co. página (local 5, global #5) i i Aos meus alunos i i i i

Análise de Componentes Principais Simbólicas

Cap. 6 Medidas descritivas

Introdução à Bioestatística Turma Nutrição Aula 3 Análise Descritiva: Medidas de Tendência Central Medidas de Variabilidade

Stela Adami Vayego Estatística II CE003/DEST/UFPR

Prof. Lorí Viali, Dr. Prof. Lorí Viali, Dr. PUCRS FAMAT: Departamento de Estatística

Capítulo 6 Estatística não-paramétrica

Capítulo 6 Estatística não-paramétrica

Estatística Aplicada I. } Análise Bidimensional

Seminário de Análise Multivariada

12/06/14. Estatística Descritiva. Estatística Descritiva. Medidas de tendência central. Medidas de dispersão. Separatrizes. Resumindo numericamente

Testes de Hipóteses: exemplos

Variáveis bidimensionais

Análise Fatorial. Matriz R de coeficientes de correlação: Não confundir análise de componentes principais com análise fatorial!

Estatística para Cursos de Engenharia e Informática

Análise Descritiva de Dados

1 Estatística Descritiva

Prof. Lorí Viali, Dr.

Exemplo (tabela um) distribuições marginais enquanto que. Distribuição Conjunta

Análise Fatorial e Componentes Principais Aplicadas na Engenharia de Avaliações

Revisando habilidades. Prof. Msc. Hamilton Vinícius Gomes

Prof.Letícia Garcia Polac. 28 de agosto de 2017

Stela Adami Vayego DEST/UFPR

Tratamento estatístico de observações

Química e Estatística

Anexo 1 Análise de correspondências simples

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE TRANSPORTES E GESTÃO TERRITORIAL PPGTG DEPARTAMENTO DE ENGENHARIA CIVIL ECV

HEP0138 BIOESTATÍSTICA

Testes de Aderência, Homogeneidade e Independência. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

4 ANÁLISE DE DADOS. Erro do balanço iônico (%) = Σ cátions - Σ ânions x 100 Σ (cátions + ânions) (1)

Tratamento estatístico de observações

Estatística Descritiva

Análise de dados, tipos de amostras e análise multivariada

Variáveis bidimensionais

RESOLUÇÃO Nº 01/2016

Unidade I ESTATÍSTICA APLICADA. Prof. Luiz Felix

ANÁLISE DAS CORRESPONDÊNCIAS MÚLTIPLAS

Relações lineares entre caracteres de tremoço branco

Prof. Lorí Viali, Dr.

Testes não paramétricos. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

CURSO DE SPSS AULA 1. UFBA/FACED José Albertino Lordello Sheila Regina Pereira

um conjunto de métodos e processos quantitativos que servem para estudar e medir os fenômenos coletivos Aplicações em quase todas as áreas de

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr.

ESTATÍSTICA DESCRITIVA. Aula 07 Estatística Descritiva

Estudo dirigido de Análise Multivariada

Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters

Aprendizado de Máquina (Machine Learning)

Prof. Lorí Viali, Dr. PUCRS Prof. Titular da FAMAT - Departamento de Estatística. Curso: Engenharia de Produção

CURSO A DISTÂNCIA DE GEOESTATÍSTICA Instituto Agronômico Dr. Sidney Rosa Vieira

Stela Adami Vayego DEST/UFPR

Cálculo da probabilidade de se encontrar uma (ou mais) vaga de zona azul desocupada.

Estatística Descritiva

Estatística I Aula 2. Prof.: Patricia Maria Bortolon, D. Sc.

Matrizes e sistemas de equações algébricas lineares

ANÁLISE DE CORRESPONDÊNCIAS MÚLTIPLAS

Cruzamento de Dados. Lorí Viali, Dr. DESTAT/FAMAT/PUCRS

12/06/14. Estatística Descritiva. Estatística Descritiva. Estatística Descritiva. Estatística Analítica (Inferência estatística/estatística indutiva)

Universidade Federal de Mato Grosso - UFMT Probabilidade e Estatística

Teste Qui-quadrado. Dr. Stenio Fernando Pimentel Duarte

Estatística para Geografia. Rio, 13/09/2017

Profissinais que desejam adquirir ou aprimorar seus conhecimentos em modelagem de dados, analytics e estatística aplicada

PÓS-GRADUAÇÃO ANÁLISE DE DATA MINING

Testes de Aderência, Homogeneidade e Independência

ESTATÍSTICA. PROF. RANILDO LOPES U.E PROF EDGAR TITO

Medidas-Resumo. Tipos de Variáveis

* Descrição: organização, resumo, apresentação e interpretação de dados (tabelas, gráficos e sumários estatísticos, de posição e de dispersão)

Capítulo 2- Funções. Dado dois conjuntos não vazios e e uma lei que associa a cada elemento de um único elemento de, dizemos que é uma função de em.

Matriz de referência de MATEMÁTICA - SAERJINHO 5 ANO ENSINO FUNDAMENTAL

Capítulo 1 Estatística Descritiva. Prof. Fabrício Maciel Gomes

GAN00140-Álg. Linear GAN00007 Int à Alg. Linear Aula 3 2ª. Parte: Matrizes e Operações Matriciais

ESTATÍSTICA. Ana Paula Fernandes - FAMAT/UFU

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

AULA 8 Experimentos multinomiais e tabelas de contingência

UNINOVE Universidade Nove de Julho. Aula 06 Continuação/Revisão Prof: João Henrique

de uma variável em função da outra, por exemplo: Quantas TV Philips são vendidas na região Norte? Quantos homens são fumantes?

Aula 2: Resumo de Dados

Rastreabilidade de Cádmio e Chumbo na cadeia produtiva da Erva Mate no Brasil

Vestibular UnB: O que esperar da prova? PROFESSOR: Henrique de Faria

Testes de Aderência, Homogeneidade e Independência

Escola Secundária de Jácome Ratton

Estatística Básica. Profa. Andreza Palma

Dr. Sylvio Barbon Junior. Departamento de Computação - UEL. 1 o Semestre de 2015

Transcrição:

ANÁLISE DE CORRESPONDÊNCIAS (ASSOCIAÇÕES) A análise de componentes principais ou análise fatorial exigem dados mensurados em escala numérica contínua e não é apropriada para dados nominais, tais como contagem de números de diversos tipos de fósseis em um nível estratigráfico ou número de fraturas com diferentes orientações num maciço rochoso. Nesses casos, em que os dados são agrupados em categorias, a Análise de Correspondências permite estudar a associação entre variáveis qualitativas. Análise de Correspondências e Análise de Correspondências Múltiplas. 1 A matriz original de dados é constituída por p linhas (amostras) e q colunas (variáveis); os elementos, x ij, da matriz são contagens Na tabela de contingências os valores originais são transformados de modo a poder ser interpretados como probabilidades condicionais. Isso significa que as soluções, tanto entre amostras como entre variáveis, são equivalentes e, desse modo, o produto final mostra num espaço bidimensional, definido pelos dois mais importantes eixos de variabilidade, a distribuição simultânea tanto das amostras como das variáveis. Por causa da natureza dessa transformação as relações entre colunas e linhas da tabela transformada são as mesmas que aquelas da matriz original da dados. 3 Tal resultado gráfico mostra a correspondência (associação) entre amostras e variáveis. 4 Medir a associação entre duas variáveis qualitativas é complexa a exigir primeiro a transformação dos dados; não é possível calcular um coeficiente de correlação para valores qualitativos, como no caso de variáveis quantitativas. A transformação consiste em recodificar duas variáveis qualitativas V 1 e V em duas tabelas disjuntivas Z 1 e Z. Para cada categoria de uma variável, há uma coluna na respectiva tabela disjuntiva. Cada vez que a categoria c da variável V 1 ocorre para uma observação i, o valor da Z 1 (i, c) é definido como 1(um) e a mesma regra é aplicada para a variável V. Os outros valores de Z1 e Z são definidos como (zero). A generalização desta idéia para mais de duas variáveis é conhecida como Análise de Correspondências Múltiplas. Quando há apenas duas variáveis, é suficiente examinar a tabela de contingência das duas variáveis, que é a tabela Z 1 'Z (onde indica matriz transposta). 5 A distância pelo qui-quadrado tem sido sugerida para medir a distância entre as duas categorias. Para representar a distância entre duas categorias não é necessário o uso das tabelas disjuntivas X 1 e X. É suficiente iniciar a partir da tabela de contingência que algebricamente corresponde ao produto de X 1 'X. 6 1

Tabela de contingências (p x q) Variável X Variável Y 1 q total 1 N11 N1 N1q N1. N1 N Nq N. p Np1 Np Npq Np. Renda familiar (amostras, casos) Tabela de contingências 1 q total 1 N11 N1 N1q N1. N1 N Nq N. p Np1 Número Np de filhos (variáveis) Npq Np. 1 > total < 15 7 5 43 135-5 5 37 1 8 8 >5 8 13 9 1 4 7 8 p Np1 Np Npq Np. 1 > total < 15 7 5 43 135-5 5 37 1 8 8 >5 8 13 9 1 4 p Np1 Np Npq Np. 1 > total < 15 7 5 43 135-5 5 37 1 8 8 >5 8 13 9 1 4 Tabela de frequências (pij = nij/n) P 3, 4,58,97,31,15,195,144,47,51,35,167,31,39 Matriz de perfil de linhas: P i,j =(n 1./ /N, n. /N...n p. /N) P L,55,319,156 15/57 =,58 9 135/57 =,55 1 1 q total 1 N11 N1 N1q N1. N1 N Nq N. p Np1 Np Npq Np. 1 > total < 15 7 5 43 135-5 5 37 1 8 8 >5 8 13 9 1 4 Matriz de perfil de colunas: Pi,j=(n.1 /N, n. /N...n.q /N) P C,187,99,76,37 48/57 =,187 11 1

.6 F $< 1 q total N1 N1q N1. 1 N11 Análise de Correspondência N1 N Nq N. p Np1 Np Npq Np. 1 > total < 15 7 5 43 135-5 5 37 1 8 8 >5 8 13 9 1 4 $-5 F Inércia é uma medida, inspirada na Física, freqüentemente utilizada em Análise de Correspondências. A inércia de um conjunto de pontos é a média ponderada das distâncias ao quadrado ao centro de gravidade. No caso específico, a inércia total do conjunto de pontos (um ponto corresponde a uma categoria) pode ser escrita como: nij ni. n.j m1 m m m1 χ n n φ, com ni. nij e n.j nij n n i1 j1 i. n.j j1 i1 n 1F -. >F $>5 -.1 -.48 -.4 -.3 -.4 -.16 -.8.8.16.4.3.4.48.56 13 Colunas Linhas.n é a soma de freqüencias na tabela de contingências; desse modo a inércia é proporcional à estatística qui-quadrado de Pearson, calculada a partir da tabela de contingência O objetivo da Análise de Correspondências é o de representar o máximo possível da inércia no primeiro eixo principal, a inércia residual sobre o segundo eixo principal e assim por diante até que toda a inércia esteja representada no espaço dos eixos principais. 14 A Análise de Correspondências Múltiplas (ACM) permite estudar a associação entre duas ou mais variáveis qualitativas. Equivale à Analise de Componentes Principais para variáveis quantitativas. O produto final são gráficos onde é possível visualizar simultaneamente as distâncias entre as categorias das variáveis qualitativas e entre as observações. Também pode ser entendida como uma generalização da Análise de Correspondências para o caso em que existam mais de duas variáveis. Embora seja possível resumir numa tabela, com n observações e p (p> ) variáveis qualitativas, numa estrutura próxima a uma tabela de contingência, é mais comum a ACM iniciar a partir da tabela original de observações e variáveis. As p variáveis qualitativas são recodificadas em p tabelas disjuntivas Z 1, Z,..., Z P, compostas por um número de colunas idêntico ao de categorias em cada uma das variáveis. Cada vez que uma categoria c da j ésima variável corresponder a uma observação i, o valor de Z J (i,c) é definido como 1(um). Os outros valores Z j serão definidos como (zero). As p tabelas disjuntivas são concatenadas em uma tabela disjuntiva plena. Uma série de transformações permite a computação das coordenadas das categorias das variáveis qualitativas, bem como as coordenadas das observações em uma representação espacial ótima para um critério baseado na inércia. No caso da ACM a inércia total é igual à média do número de categorias menos um. A geração da tabela disjuntiva é o passo preliminar para o cáculo da ACM. 15 A inércia depende fundamentalmente do grau de associação entre as categorias. 16 Satisfeito Consertado Recepção Q/Preço Retorno C1 Sim Sim 5 Sim Sim Avaliação de desempenho em uma oficina de automóveis C Sim Sim 4 Sim Dúvida C3 Sim Sim 4 Sim Dúvida C4 Sim Dúvida 4 Sim Dúvida C5 Sim Dúvida 4 Sim Sim C6 Sim Dúvida 4 Sim Sim C7 Sim Dúvida 5 Sim Não C8 Sim Dúvida 3 Sim Não C9 Sim Sim Sim Não Satisfação: SIM NÃO Solução do problema: SIM NÃO DÚVIDA Qualidade da recepção: 1--3-4-5 O preço cobrado esta de acordo com a razão custo/benefício: SIM NÃO Retorno à oficina: SIM NÃO - DÚVIDA C1 Sim Sim 5 Não Dúvida C11 Sim Sim 4 Não Dúvida C1 Sim Sim 3 Não Sim C13 Sim Sim 1 Não Não C14 Sim Sim 1 Não Não C15 Sim Dúvida 3 Não Não C16 Não Não 3 Não Dúvida C17 Não Sim 4 Não Dúvida C18 Não Não 5 Sim Dúvida C19 Não Sim 3 Não Dúvida C Não Sim 3 Não Dúvida C1 Não Não 3 Não Dúvida C Não Não 1 Não Dúvida C3 Não Sim Não Dúvida C4 Não Sim Não Não 17 C5 Não Não 1 Não Não C6 Não Sim 1 Não Não 18 C7 Não Sim 1 Não Não C8 Não Dúvida Não Não 3

Eixo II (6.44 %) Marketing e tomada de decisões: clientes e modelos de carros 19 Modelo A Modelo B Modelo C Modelo D Fem-1-S 58 36 4 1 Fem--S 54 33 49 15 Fem-3-S 36 3 55 4 Fem-1-C 45 5 8 Fem--C 4 1 45 1 Fem-3-C 45 15 3 1 Mas-1-S 3 61 15 14 Mas--S 1 59 16 Mas-3-S 15 45 1 13 Mas-1-C 1 5 3 14 Mas--C 1 48 1 18 Mas-3-C 14 49 5 15.35 Análise de Correspondência Fem-1-S Epidemiologia de doenças transmissíveis.5.15.5 -.5 Mas-1-S Mas--S Modelo B Mas--C Mas-3-S Modelo A Fem-1-C Fem-3-C Fem--S Endemia de malária em Porto Velho (RO): um estudo baseado na análise estatística espacial de dados multivariados. -.15 Mas-3-C Modelo D -.5 -.35 Mas-1-C Modelo C Fem-3-S -.45 Fem--C -.6 -.5 -.4 -.3 -. -.1.1..3.4.5.6 Eixo I (7.69 %) Colunas Linhas 1 3 Áreas Florestas BAIRROS Criadouros Drenagens Alagadas Remanescentes Nascentes Riscos C1 > SIM SIM SIM SIM C 1 SIM SIM SIM SIM 1 C3 SIM SIM NÃO SIM C4 SIM SIM NÃO SIM C5 1 SIM NÃO SIM SIM C6 NÃO NÃO SIM NÃO C7 1 SIM SIM SIM SIM C8 NÃO NÃO NÃO NÃO 1 C9 1 SIM NÃO NÃO SIM 1 C1 SIM SIM NÃO NÃO C11 > SIM SIM SIM SIM C1 NÃO NÃO NÃO NÃO 1 C13 1 SIM SIM NÃO SIM 1 C14 SIM NÃO SIM SIM 1 C15 > SIM SIM SIM SIM 3 C16 1 SIM SIM NÃO SIM 1 C17 SIM SIM NÃO SIM 3 C18 SIM SIM NÃO NÃO C19 NÃO NÃO NÃO SIM 1 C SIM NÃO NÃO SIM 1 C1 SIM NÃO SIM SIM C SIM NÃO NÃO NÃO 1 C3 NÃO SIM SIM NÃO C4 1 SIM SIM SIM SIM 1 C5 1 SIM SIM SIM NÃO 1 C6 1 SIM SIM SIM SIM 1 C7 NÃO NÃO NÃO SIM 1 C8 SIM NÃO NÃO SIM C9 > SIM SIM SIM SIM 3 C3 > SIM SIM NÃO NÃO 1 C31 NÃO NÃO NÃO NÃO C3 NÃO SIM NÃO NÃO 1 C33 SIM SIM NÃO SIM 1 C34 SIM NÃO NÃO NÃO 1 C35 NÃO NÃO NÃO NÃO C36 1 SIM SIM NÃO NÃO C37 SIM SIM SIM SIM 1 C38 NÃO NÃO NÃO NÃO 1 C39 SIM SIM NÃO NÃO C4 SIM SIM SIM SIM 3 C41 NÃO NÃO NÃO NÃO 1 C4 SIM SIM SIM SIM 3 4 4

Em seguida essas informações nominais foram transformadas, para notação binária, com a finalidade de fornecer uma tabela disjuntiva, segundo os critérios: a) número de criadouros: níveis;, 1, e m ais de ; b) drenagens: presença (1) ou ausência () ; c) áreas alagadas: presença (1) ou ausência (); d) floresta remanescente: presença (1) ou ausência (); e) nascentes: presença (1) ou ausência (); f) risco de contrair a doença, segundo o Índice P arasitário Anual (IPA): sem risco IPA = (nível ); baixo risco,1 a 9,9 (nível 1); médio risco 1 a 49,9 (nível ); alto risco IPA maior ou igual a 5 (nível 3). 5 Áreas Florestas Criadouros Drenagens Nascentes Riscos AIRROS alagadas Remanescentes 1 > Sim Não Sim Não Sim Não Sim Não 1 3 1 1 1 1 1 1 1 1 1 1 1 1 1 3 1 1 1 1 1 1 4 1 1 1 1 1 1 5 1 1 1 1 1 1 6 1 1 1 1 1 1 7 1 1 1 1 1 1 8 1 1 1 1 1 1 9 1 1 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 13 1 1 1 1 1 1 14 1 1 1 1 1 1 15 1 1 1 1 1 1 16 1 1 1 1 1 1 17 1 1 1 1 1 1 18 1 1 1 1 1 1 19 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 3 1 1 1 1 1 1 4 1 1 1 1 1 1 5 1 1 1 1 1 1 6 1 1 1 1 1 1 7 1 1 1 1 1 1 8 1 1 1 1 1 9 1 1 1 1 1 1 3 1 1 1 1 1 1 31 1 1 1 1 1 1 3 1 1 1 1 1 1 33 1 1 1 1 1 1 34 1 1 1 1 1 1 35 1 1 1 1 1 1 36 1 1 1 1 1 1 37 1 1 1 1 1 1 38 1 1 1 1 1 1 6 7 8 Análise de Correspondências: Levantamento de solos efetuado pelo Swiss Federal Institute of Technology em Lausanne/Suíça, tendo sido coletado um total de 1 amostras Na matriz de dados apresentada no exercício constam valores para Cd, Cu e Pb. 3 5

Os limites máximos considerados toleráveis para o consumo humano são: Cd =.8; Cu = 5; Pb = 5 Tendo em vista esses valores, preliminarmente, efetuar uma transformação para as variáveis Cd, Cu e Pb da seguinte maneira: Se Cd i.8, substituir pelo valor 1 (um); caso contrário pelo valor (zero) Se Cu 5, substituir pelo valor 1 (um); caso contrário pelo valor (zero) Se Pb 5, substituir pelo valor 1 (um); caso contrário pelo valor (zero) 31 3 Para a transformação binária usar o aplicativo Excel função (f x ) Lógica SE, da seguinte maneira: Para cádmio: =SE(x,y<=.8;;1) Para cobre: =SE(x,y<=5;;1) Para chumbo =SE(x,y<=5;;1) De posse dessa nova tabela, com valores binários, efetuar análise de correspondências múltiplas para confrontar os resultados das 3 variáveis geoquímicas tanto com a litologia como com o uso da terra. 33 34 35 36 6

Concentrações de Cd e Pb acima dos limites toleráveis estão associadas à lavoura. Associação entre pradaria e terrenos J3; entre floresta e terrenos J. 37 explicação 38 39 4 Dados: metais pesados (ppm) provenientes de diversas profundidades (cm) de uma sondagem no leito de uma laguna 41 7

Tendência do teor em metais pesados com o aumento da profundidade? Comportamento das variáveis é o mesmo com o aumento da profundidade? 43 8