Aná lise QL QL Me todo do X² Isso é um resumo-manual, ou seja, primeiro apresentarei os conceitos, depois explicarei passo a passo como fazer uma análise. Para fazer uma análise de dados QL-QL (qualitativa, qualitativa), primeiramente devemos saber o que é uma variável qualitativa. Ou melhor, se ela é qualitativa ou quantitativa. Vejamos os conceitos: 1. Variável Qualitativa: expressa em categorias, isto é, a resposta é uma característica. Como assim? Vejamos exemplos que fica mais fácil: a. Sexo (resposta: masculino ou feminino, não há uma quantidade, a resposta não é um número) b. Aprovação (resposta: Sim ou Não, não há uma quantidade) c. Bebe (resposta: Sim ou Não, não há uma quantidade) d. Time que torce (resposta: Figueirense, Avaí, Criciúma, Nenhum time.) e. Gênero de filme (Drama, Romance, Comédia ) f. Conceito (Tirou Excelente, Muito Bom, Mediano) g. Escolaridade (Ensino Superior, Médio, Fundamental, lê e escreve ) 2. Variáveis Quantitativas: expressa medidas, números a. Notas (resposta: 10; 8,5; 7 ) b. Idade (resposta: 70, 50, 45) c. Quantas disciplinas faz (resposta: 5, 3, 2, 10) d. Salário (resposta: R$5.000; R$4.000) e. Distância da casa a UFSC (resposta: 5km, 4km, 100m) f. População da cidade (300 mil; 40 mil; 500 (Alfredo Wagner)) Variáveis Qualitativas Como o objetivo deste manual é a análise meramente qualitativa (QL-QL), temos que perceber alguns fatores: 1. Tipos de Variável Qualitativa: a. Nominal: a ordem não importa (ex: Masculino e feminino, não há um mais importante que o outro, então tanto faz. O fato de beber ou não beber também não interfere, nem mesmo time que se torce, ou gênero do filme) b. Ordinal: a ordem importa, há uma hierarquia implícita ou explícita (ex: o conceito num mestrado, Excelente é maior que Muito Bom, que é maior que Mediano, etc A escolaridade também interfere, pois alguns tem MAIOR escolaridade do que outros.) 2. Dependência da Variável: Quando há duas variáveis, temos que inferir qual que depende da outra. Como assim? Por exemplo se queres saber se o fato do gênero influencia no gosto de um filme, a variável INDEPENDENTE (a que regula) é o GÊNERO), já a DEPENDENTE (é o filme). Ou seja, queres analisar se o fato de alguém gostar
de um filme DEPENDE do gênero, que é INDEPENDENTE. Tal situação aplica no sistema CAUSA-EFEITO 3. Maneiras de analisarmos uma Variável Qualitativa: a. Criando uma TABELA DE FREQUÊNCIAS: que nada mais é do que a tabela de quantidade de cada variável. Ou numa definição mais bonita: é uma forma estruturada de apresentar um conjunto de valores de uma variável. De preferência deve conter a porcentagem: Time que torce Quantidade (X%) Figueirense 1400 (28%) Criciúma 1300 (26%) Joinville 1200 (24%) Avaí 100 (2%) Nenhum 1000 (20%) Total 5000 (0%) b. Criando uma TABELA DE CONTIGÊNCIA: Apresenta quantidades e porcentagens (frequências) relacionando duas variáveis, como no exemplo do manual anterior (Homem, mulher, maior de idade, menor de idade) Esporte favorito Homem Mulher Total Volei 4 (10%) 8 (20%) 12 (30%) Futebol 16 (40%) 4 (10%) 20 (50%) Tenis 2 (5%) 6 (15%) 8 (20%) Total 22 (55%) 18 (45%) 40 (100%) Olhando esse caso, já pode-se observar alguma discrepância. Por exemplo, há uma grande quantidade de homens que gostam de futebol e poucos que gostam de tênis. Já nas mulheres parece haver um equilíbrio. Isto pode ser analisado mais numericamente utilizando o método do X² Método do X² (Teste de hipóteses) Este método consiste em darmos um valor ABSOLUTO para as nossas suposições. Uma coisa é acharmos que algo tem a ver, outra é darmos uma veia estatística, provarmos isso matematicamente. De maneira bonita, um teste de hipóteses é um processo de inferência (discutir a partir de um pequeno grupo sua relação com a realidade) que busca verificar a associação ou não entre duas variáveis (ex: se o gênero influencia no esporte) Para isso, é preciso seguir alguns conceitos: 1. Nível de Significância: É a chance máxima de ERRO ao se inferir na hipótese H1. É o contrário da confiabilidade. Serve como um parâmetro na análise estatística. Os mais comuns são 10%, 5% e 1%: 0,10; 0,05 e 0,01. Ou seja, se nível de significância alcançado foi 0,05 e inferimos que a relação entre sexo e gosto musical EXISTE, isso tem 5% de chance de estar errado!
2. Frequência esperada: É a frequência que cada variável teria se não houvesse absolutamente NENHUMA RELAÇÃO. Já explicarei mais um pouco abaixo 3. Grau de liberdade: é o número de células livres (explicarei junto com a frequência esperada) 4. Distância X²: Somatório das diferenças (ao quadrado) entre o que foi observado e o que foi esperado. Note-se que, se o X² for grande, quer dizer que o observado foi muito diferente do esperado, havendo relação. 5. Pvalor: probabilidade de significância entre as associações das duas variáveis. É a chance de erro ao se inferir na hipótese H1. Ou seja, se o pvalor é muito baixo, quer dizer que há uma forte chance de haver relação (tudo será explicado com exemplos ali em baixo) Frequência esperada Como falei, representa um mundo onde não há relação entre as variáveis. Mostra o que se ESPERA! Vejamos o exemplo do manual anterior: OBSERVADO Homens Mulheres Total Maior de Idade 400 300 700 Menor de Idade 200 100 300 Como vamos obter a tabela ESPERADA??? Bem, podemos fazer CÉLULA A CÉLULA. Lembrem como calculamos cada célula??? A primeira célula indica os HOMENS que são ADULTOS (maiores de idade). Em probabilidade, qual é a chance de uma pessoa aleatória ser um homem E um adulto??? Ou seja, qual é P(A H)? Pela última fórmula que verificamos, temos que: P(A H) = P (H) * P(A se H) Como queremos determinar o ESPERADO, onde não há relação NENHUMA entre as variáveis, pensem assim: se o fato de ser homem ou mulher não interfere se ele é adulto ou criança, então a chance de ser adulto se for homem (de um homem ser adulto) P(A se H) é tão somente a mesma de ser simplesmente adulto P(A), nesse caso. Assim, calcularemos a primeira célula assim: P(A H) = P (H) * P(A se H) P(A H) = P (H) * P(A) P(A H) = 0,60 * 0,70 = 0,42 (42%) Assim, 0,42 é a chance ESPERADA, num mundo IDEAL, de uma pessoa ser HOMEM e ADULTO. Como temos 1000 pessoas, 42% de 1000 é 420. Vamos seguir esse mesmo raciocínio para as outras células:
1. P(M A) = P(M) *P(A) = 0,40*0,70 = 0,28 = 28%. 28% de 1000 = 280 2. P (M C)= P(M)*P(C)= 0,40*0,30 = 0,12 = 12% 12% de 1000 = 120 3. P(H C) = P(H)*P*(C)=0,60*0,30 = 0,18 = 18% 18% DE 1000 = 180 Montando a tabela esperada: Esperado Homens Mulheres Total Maior de Idade 420 280 700 Menor de Idade 180 120 300 Note que as extremidades continuam as mesmas. Isso porque a chance de cada variável, independentemente, foi MANTIDA! Naturalmente, pois a chance de ser homem continua a mesma, independente de qualquer outra coisa. Isso ajudará a entender o conceito de GRAU DE LIBERDADE Grau de Liberdade Significa o número de variáveis livres na tabela, isto é, considerando que as extremidades são sempre as mesmas, quantos números eu posso botar ALEATORIAMENTE???? Ex, se eu fizer uma nova observação e descobrir que há 500 homens. Como as extremidades estão FIXAS, as outras células dependerão DESTA inicial. Ou seja, esta inicial é completamente LIVRE, enquanto as outras são DEPENDENTES dessa. Homens Mulheres Total Maior de Idade 500 700-500 = 200 700 Menor de Idade 600-500 = 100 300-100=400-200=200 300 Observe que só UM valor controla a tabela, então o grau de liberdade é UM, isto é, só tem um valor livre. Agora olhe essa outra tabela aqui: Esporte favorito Homem Mulher Total Volei 4 8 12 Futebol 16 4 20 Tenis 2 6 8 Total 22 18 40 Veja que agora temos duas categorias para uma variável, enquanto temos duas categorias para a outra. Como saberemos então? Lembrando que as extremidades ficam fixas, se
estipularmos um número de homens que gostam de vôlei, saberemos as mulheres que também gostam de vôlei. Mas e depois??? Olhe bem: Esporte favorito Homem Mulher Total Volei 9 3 12 Futebol 20 Tenis 8 Total 22 18 40 As pessoas que gostam de Futebol e Tenis podem variar. Eu posso escolher 9 homens que gostam de futebol, restando assim somente quatro que gostam de tênis. Ou então 11 homens que gostam de futebol, restando apenas dois que gostam de tênis. Note que ainda há outra célula livre para eu escolher. Veremos se com ela já completamos. Esporte favorito Homem Mulher Total Volei 9 12-9 = 3 12 Futebol 11 20-11 = 9 20 Tenis 22-11-9 = 2 8-2=18-9-3 = 6 8 Total 22 18 40 FECHOU! Então temos duas variáveis livres nesse caso. Agora vamos raciocinar um pouco A primeira tabela tinha duas linhas e duas colunas (ignore os totais, pelo amor de deus) e o grau de liberdade era UM. A segunda tabela tinha duas três linhas e duas colunas e o grau de liberdade era dois. Se resolveres brincar (eu sei que não vais), verás que numa 3x3 temos quatro variáveis livres: Girassol Violeta Rosa Total Amarelo 19 0 20-19-0 = 1 20 Vermelho 1 10 50-10-1 = 39 50 Azul 20-19-1 = 0 40-10-0= 30 30-30-0=40-39-1=0 30 Total 20 40 40 100 Se fizermos mais, podemos deduzir uma fórmula: Gl (grau de liberdade) = (número de linhas menos um) * (números de colunas menos um) = (nl-1)*(nc-1) Verificando: 1º Caso (2x2) = (2-1)*(2-1) = 1*1 = 1 variável livre CORRETO 2º Caso (3x2) = (3-1)*(2-1) = 2*1 = 2 variáveis livres CORRETO 3º Caso (3x3) = (3-1)*(3-1) = 2*2 = 4 variáveis livres CORRETO
Qui Quadrado Como eu falei é o somatório das diferenças sobre o valor esperado. Se encontra na fórmula: Meu deus, mas o que é isso??? Vamos pegar aquela tabela da criminalidade lá: OBSERVADO Homens Mulheres Total Maior de Idade 400 300 700 Menor de Idade 200 100 300 Esperado Homens Mulheres Total Maior de Idade 420 280 700 Menor de Idade 180 120 300 Estão vendo aqueles somatórios. Vejam que tem i e j. Ou seja, faremos o somatório dos valores LINHA A LINHA e COLUNA A COLUNA. Mais precisamente, CÉLULA A CÉLULA! 1ª Célula: (400-420)²/420 = 400/420 = 0,95 [precisa de todos os algarismos, mas eu estou com preguiça] 2ª Célula (300-280)²/280 = 400/280 = 1,43 3ª Célula(200-180)²/180 = 400/180 = 2,22 4ª Célula (120-100)²/120 = 400/120 = 3,33 SOMATÓRIO (X²) = 0,95+1,43+2,22+3,33 = 7,93 Observamos duas coisas: 1. O numerador, a princípio, se mantém (sempre 400), mas isso não é regra quando se utilizar tabelas maiores. 2. Se o número de baixo (esperado) for muito pequeno, isso torna o Qui Quadrado muuuito grande. Por isso, é recomendado que nenhum deles tenha Frequência INFERIOR a cinco. p-valor O p-valor é a chance de erro ao se inferir na hipótese H1 (ali em baixo explicarei melhor), primeiro vamos ao conceito matemático: O p-valor é a área debaixo de um intervalo de uma função que usa o Qui Quadrado e o grau de liberdade para avaliar as hipóteses estatísticas.
Se utilizarmos o teste X², 0 p-valor nada mais é do que uma integral da função do X² ou melhor dizendo, a área sobre o gráfico. Para descobrir o p-valor, basta olhar na tabela: Como vamos usá-la???? Fácil É só olhar o seu grau de liberdade e o X² Quanto deu o nosso gl na conta de cima (tem duas linhas e duas colunas), então o gl é: gl = (2-1)*(2-1) = 1*1 = 1 [primeira linha dessa tabela grandona] Quanto deu o nosso x²? 7,93. Então procuramos nessa linha (no caso a primeira) um valor próximo de 7,93. No caso é o 7,88. Assim, olhamos o valor do pvalor na coluna (no caso 0,005) Análise: H0 e H1 Mas afinal, para que vale isso??? Simples precisamos comparar o pvalor com a nossa significância para verificar o nosso teste de hipóteses. Por quê? Por que a significância é a chance máxima de dar errado. Quanto menor for essa chance MAIS EXIGENTE devemos ser, ou seja, precisamos de um pvalor MENOR ainda para inferir que há associação. Assim será esquematizado:
H0 = Pvalor > Significância (no teste X² = não há relação) H1 = =Pvalor < Significância (no teste X² = há relação) No caso, o pvalor deu 0,005. Considerando a significância 5% (0,05), podemos observar que há sim relação, já que 0,005 < 0,05. Logo, é H1.