Análise de Correspondência: introdução

Documentos relacionados
2. Testes de Independência

Sensometria, 2018 CATA. Adilson dos Anjos

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre. Teste de Qui-quadrado

Capítulo 6 Estatística não-paramétrica

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre. Teste Qui-Quadrado

Estatística para Geografia. Rio, 30/08/2017

- Testes Qui-quadrado - Aderência e Independência

Análise de correspondência

Análise de dados categóricos

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Capítulo 6 Estatística não-paramétrica

Análise Exploratória de Dados

- Testes Qui-quadrado - Aderência e Independência

Teste qui-quadrado e teste exato de Fisher

MAE0229 Introdução à Probabilidade e Estatística II

TESTES NÃO-PARAMÉTRICOS

Introdução à análise estatística com SPSS. Guião nº6: Medidas de associação

MAE 0535 Pesquisa de Mercado

Medidas de associação entre duas variáveis qualitativas

AULA 8 Experimentos multinomiais e tabelas de contingência

Estatística e Modelos Probabilísticos - COE241

Análise de Aderência e de Associação

Aula 4 PROJETO DE EXTENSÃO. UFFS Universidade Federal da Fronteira Sul Campus Cerro Largo

AVALIAÇÃO SÓCIOECONÔMICA DAS PESSOAS COM DEFICIÊNCIA NO ESTADO DE MINAS GERAIS POR MEIO DA ANÁLISE DE CORRESPONDÊNCIA

AULA 10 RELACIONAMENTOS ENTRE DUAS VARIÁVEIS

Probabilidade e Estatística

4. Medidas de associação entre variáveis categóricas em tabelas de dupla entrada

- Testes Qui-quadrado - Aderência e Independência

CE001 - BIOESTATÍSTICA TESTE DO QUI-QUADRADO

MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência

Associação entre variáveis categóricas e IC95%

AULA 4 Análise de Dados Legislativos e Eleitorais Utilizando o Programa Stata

Teste Qui-Quadrado Rio de Janeiro, 23 de setembro de 2012

Exemplo (tabela um) distribuições marginais enquanto que. Distribuição Conjunta

Teste χ 2 de aderência

A teoria postulada por Mendel estabelece que a segregação, neste caso, deve ocorrer na seguinte proporção: 9/16 : 3/16 : 3/16 : 1/16

6. Medidas de associação entre variáveis categóricas em tabelas de dupla entrada

Teste Qui-quadrado. Dr. Stenio Fernando Pimentel Duarte

Estatística Descritiva (III) Associação entre Variáveis

ESTATÍSTICA EXPERIMENTAL. ANOVA. Aula 05

MANUAL DIDÁTICO PARA APLICAÇÃO DE TESTES ESTATÍSTICOS NA ANÁLISE DO DESEMPENHO DE ALUNOS EM DISCIPLINAS DA GRADUAÇÃO

SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 5 de março de Departamento de Estatística Universidade Federal do Paraná

Análise de Correspondência (ANACOR)

Testes não paramétricos são testes de hipóteses que não requerem pressupostos sobre a forma da distribuição subjacente aos dados.

SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 9 de junho de Departamento de Estatística Universidade Federal do Paraná

Testes para dados categóricos

1 Estatística Descritiva

ESTATÍSTICA Distribuições qui-quadrado, t de Student e F de Snedecor Lucas Schmidt

Gabarito Lista 2 LES0773 Estatística III. Os resultados dessa regressão são apresentados na seguinte tabela:

- Testes Qui-quadrado. - Aderência e Independência

Prof. Lorí Viali, Dr.

Análise de Dados Categóricos Tabelas 2 2

Testes de Aderência, Homogeneidade e Independência

Testes não paramétricos. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

Bolo de Bolacha de Caramelo

PHD 5742 Estatística Aplicada ao Gerenciamento dos Recursos Hídricos

Inferência Estatística:

AUTOCORRELAÇÃO ESPACIAL. Flávia F. Feitosa

Teste Chi-Quadrado de Independência. Prof. David Prata Novembro de 2016

Se a afirmação de João é verdadeira, temos o seguinte conjunto em seu bolso.

ESCOLA SUPERIOR DE TECNOLOGIA

Formas fundamentais de energia

Testes de Aderência, Homogeneidade e Independência

Prof. Lorí Viali, Dr.

Estatística Descritiva (III) Associação entre Variáveis

Estatística Não Paramétrica. Como construir testes de aderência

Aula prática 4 Parte I - Correlação e regressão linear simples

SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 24 de março de Departamento de Estatística Universidade Federal do Paraná

Teste do Qui2. O tamanho de amígdala está associado com a presença da bactéria Streptoccocus pyogenes?

Os testes. Objetivos. O teste Q de Cochran; O teste de Friedman (Análise de variância de duplo fator por postos)

Stela Adami Vayego DEST/UFPR

d Italia Vicenzi com recheio de creme de avelã

PHD 5742 Estatística Aplicada ao Gerenciamento dos Recursos Hídricos. 6 a aula Testes de Hipóteses

Testes qui-quadrado e da razão de verossimilhanças

Estatística Descritiva (III) Associação entre Variáveis

C ATÁ LO G O D E P R O D U TO S

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro RESUMO -

SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 31 de março de Departamento de Estatística Universidade Federal do Paraná

TESTE DO QUI-QUADRADO DE INDEPENDÊNCIA

4. RESULTADOS Resultados Gerais da Amostra

Métodos Quantitativos Aplicados

Stela Adami Vayego Estatística II CE003/DEST/UFPR

Análise de conteúdo. Investigação: Componente Relevante na Formação Contínua? Perspetivas dos Professores

Testes de Hipóteses: exemplos

16/6/2014. Teste Qui-quadrado de independência

Segmentação: exemplo chocolate

Intervalos de Confiança

IMC para adolescentes:

Sobremesas deliciosas

Lista de ingredientes

LINHA ZERO AÇÚCAR LINHA INTEGRAL LINHA ORGÂNICA

Testes de Aderência, Homogeneidade e Independência

'HVFULomRH$QiOLVH([SORUDWyULDGRV'DGRV

Estatística Aplicada II. } Algumas distribuições adicionais

Para analisar os dados, pode-se tabular o número de vezes que cada quantidade de palavras ocorreu, que é a freqüência de cada quantidade:

Universidade de São Paulo Faculdade de Filosofia, Letras e Ciências Humanas Departamento de Ciência Política

Transcrição:

Análise de Correspondência: introdução Adilson dos Anjos

Objetivo O objetivo dessa aula é apresentar o Teste de χ 2 como introdução à Análise de Correspondência e, Apresentar a Análise de Correspondência (AC); As análises serão realizadas com uso do R.

Pacotes utilizados: ca

Introdução A distribuição χ 2 (pronuncia-se qui quadrado ) pode ser utilizada em diferentes testes; Em tabelas de frequência do tipo contingência tem-se o interesse em testar a independência entre linhas e colunas;

Exemplos de tabelas de contingência: Exemplo 1: Foi realizada uma pesquisa com consumidores da capital e do interior sobre a preferência entre duas marcas. Registrou-se a frequência de respostas para cada marca para as diferentes origens de consumidores. Grupo Marca A Marca B Capital 23 12 Interior 18 13

Exemplo 2: Foi realizada uma pesquisa com 300 consumidores de bolachas recheadas. Registrou-se a preferência entre sabor e recheio. Grupo Sabor1 Sabor2 Sabor3 Recheio A 51 15 29 Recheio B 22 27 59 Recheio C 26 44 27

Exemplo 3: Considere uma pesquisa sobre tipos e sabores de sobremesas com 185 consumidores. No R, os dados poderiam ser inseridos da seguinte maneira: sobremesa<-matrix(c(17,33,19,30,15,16,14,15,26),nc=3) colnames(sobremesa)<-c('flan','pudim','creme') rownames(sobremesa)<-c("baunilha", "Chocolate", "Banana")

A tabela gerada será: sobremesa flan pudim creme Baunilha 17 30 14 Chocolate 33 15 15 Banana 19 16 26

flan pudim creme Graficamente, os dados poderiam ser visualizados em um gráfico de barras: barplot(sobremesa,legend=t, col=c('yellow','brown4','green')) 0 10 30 50 Banana Chocolate Baunilha

Na Análise de Correspondência utiliza-se a distribuição χ 2 para compreender a relação entre vairáveis; Por esse motivo, vamos entender como utilizar o Teste de χ 2 antes de apresentar a Análise de Correspondência (AC).

Na análise de uma tabela de contingência as hipóteses testadas são: ou H0 : as variáveis são independentes, H1 : as variáveis não são independentes. H0 : linhas e colunas são independentes, H 1 : linhas e colunas não são independentes.

Como analisar a tabela de contingência: chisq.test(sobremesa) Pearson's Chi-squared test data: sobremesa X-squared = 18.317, df = 4, p-value = 0.00107

Considerando um nível de significância de 5%, como o p valor < 0, 05, rejeita-se H 0, ou seja, existe uma associação entre linhas e colunas ou, Existe uma associação entre sabor e tipo de sobremesa. Mas como visualizar essa associação? **Por meio da Análise de Correspondência.**

Na Análise de Correspondência, inicialmente, faz-se um teste de χ 2 para testar se existe associação entre linhas e colunas; Caso a associação seja significativa (p < 0, 05), isso indica que existe uma CORRESPONDÊNCIA entre as variáveis; Basicamente, a Análise de Correspondência é uma análise gráfica.

Considere os dados do exemplo 1: preferencia1<-matrix(c(23,12,18,13),nc=2) colnames(preferencia1)<-c('a','b') rownames(preferencia1)<-c("capital", "Interior") preferencia1 A B Capital 23 18 Interior 12 13

chisq.test(preferencia1) Pearson's Chi-squared test with Yates' continuity corre data: preferencia1 X-squared = 0.14836, df = 1, p-value = 0.7001

Conclusão: Não rejeita-se H 0, ou seja, não existe associação entre sabor e recheio.

Considere os dados do exemplo 2: preferencia2<-matrix(c(51,15,29,22,27,59,26,44,27),nc=3) colnames(preferencia2)<-c('sabor1','sabor2','sabor3') rownames(preferencia2)<-c("recheio A", "Recheio B", "Rechei preferencia2 Sabor1 Sabor2 Sabor3 Recheio A 51 22 26 Recheio B 15 27 44 Recheio C 29 59 27

chisq.test(preferencia2) Pearson's Chi-squared test data: preferencia2 X-squared = 45.879, df = 4, p-value = 2.61e-09

Conclusão: Rejeita-se H 0, ou seja, existe associação entre sabor e recheio.

Análise de Correspondência Análise de variáveis categóricas; Tabelas de contingência (frequências de respostas); Avalia a relação entre linhas e colunas; Objetivo é construir uma representação gráfica da associação entre amsotras e variáveis;

Permite representar linhas (produtos) e colunas (atributos) no mesmo espaço O termo análise de correspondência vem do fato de que linhas e colunas são combinadas para avaliar a ligação entre eles Os dados são obtidos, em geral, por um questionário As respostas são fornecidas para categorias possíveis para uma pergunta.

A análise é baseada na decomposição da estatística χ 2 ; A análise é similar a Análise de Componentes Principais; São encontradas as perfis de linhas e perfis de colunas (Nuvem de pontos); Linhas e colunas são representadas no mesmo espaço por uma função de ligação (não abordado aqui);

Análise de correspondência simples acontece quando há apenas duas variáveis categóricas; Quando há mais do que duas, pode-se generalizar a análise; Tem-se então a Análise de Correspondência Múltipla (ACM); Objetivo: estudar indivíduos, estudar as variáveis e suas categorias;

Análise de Correspondência Exemplos: AC - Dados de Sobremesas (Exemplo livro Silvia) AC - Dados Modelos de automóveis (Mingoti, 2007)

Exemplo da Sobremesa: sobremesa<-matrix(c(17,33,19,30,15,16,14,15,26),nc=3) colnames(sobremesa)<-c('flan','pudim','creme') rownames(sobremesa)<-c("baunilha", "Chocolate", "Banana") sobremesa flan pudim creme Baunilha 17 30 14 Chocolate 33 15 15 Banana 19 16 26

Um gráfico de barras: barplot(sobremesa,legend=t) 0 10 30 50 Banana Chocolate Baunilha flan pudim creme

Analisando a relação entre linhas e colunas: chisq.test(sobremesa) Pearson's Chi-squared test data: sobremesa X-squared = 18.317, df = 4, p-value = 0.00107

Como rejeita-se a hipótese H 0, pode-se proceder com a Análise de Correspondência. Utilizando a função ca do pacote ca: library(ca) ca.sobre<-ca(sobremesa)

Graficamente, pode-se avaliar o resultado da AC: X11() # abrir uma nova janela gráfica plot(ca.sobre) Dimension 2 (38.8%) 0.2 0.0 0.1 0.2 0.3 creme Banana Baunilha pudim Chocolate flan 0.6 0.4 0.2 0.0 0.2 0.4 Dimension 1 (61.2%)

Como interpretar? Sensometria, 2018

Uma outra forma de representação Gráfica: plot(ca.sobre, arrows = c(true, TRUE)) # asymmetric map Dimension 2 (38.8%) 0.2 0.0 0.1 0.2 0.3 creme Banana pudim Baunilha flan Chocolate 0.6 0.4 0.2 0.0 0.2 0.4 Dimension 1 (61.2%)

Exemplo Mingoti (2007) sobre automóveis: Nesse exemplo tem-se as seguintes variáveis: F, M -> Feminino, Masculino; 1,2,3-> Faixa etária 20-30/30-40/>=40; T, NT-> Trabalha, Não Trabalha;

Dados: auto<-matrix(c(58,54,36,45,24,45,23,21,15,12,21,14, 36,33,23,20,12,15,61,59,45,50,48,49, 24,49,55,25,45,23,15,16,21,32,21,25, 10,15,24,8,12,12,14,20,13,14,18,15),nc=4) colnames(auto)<-c('modelo1','modelo2','modelo3','modelo4') rownames(auto)<-c('f1t','f2t','f3t','f1nt','f2nt','f3nt', 'M1T','M2T','M3T','M1NT','M2NT','M3NT')

auto modelo1 modelo2 modelo3 modelo4 F1T 58 36 24 10 F2T 54 33 49 15 F3T 36 23 55 24 F1NT 45 20 25 8 F2NT 24 12 45 12 F3NT 45 15 23 12 M1T 23 61 15 14 M2T 21 59 16 20 M3T 15 45 21 13 M1NT 12 50 32 14 M2NT 21 48 21 18 M3NT 14 49 25 15

Teste de qui-quadrado: chisq.test(auto) Pearson's Chi-squared test data: auto X-squared = 225.87, df = 33, p-value < 2.2e-16 Rejeita-se H 0.

Realizando a AC: ca.auto<-ca(auto)

plot(ca.auto) Dimension 2 (26.4%) 0.2 0.0 0.2 0.4 F2NT F3T modelo3 F2T F3NT F1NT modelo1 M1NT modelo4 M3NT M3T M2NT M2T modelo2 M1T F1T 0.5 0.0 0.5 Dimension 1 (70.7%)

Como interpretar? Sensometria, 2018