MAE0217 - Estatística Descritiva - 1 o semestre de 2017 Professora: Márcia D Elia Branco Monitora PAE: Simone Harnik Gabarito - Lista 4 Exercício 1 Uma rede de supermercados decidiu dar um bônus aos clientes em seis faixas. Mediu-se o incremento y para as faixas de compras x. a) Ajuste o modelo linear. O modelo linear ajustado tem as seguintes estimativas. Estimativa Erro padrão Valor-P Intercepto 40,99 45,37 0,3875 x 0,50 0,27 0,0935 Verifica-se significância marginal (ao nível de 10%) das faixas de bônus no incremento de consumo y. b) Faça o diagrama de dispersão com a reta ajustada. Você acha o modelo adequado? O diagrama de dispersão da Figura 1 mostra uma tendência quadrática do incremento y em relação às faixas de bônus x. A reta ajustada pelo modelo de regressão parece não estar adequada para explicar a variação em y, segundo as faixas x de bônus. Figura 1: Gráfico de dispersão do incremento y contra as faixas de bônus x c) Proponha um modelo mais adequado e faça a análise de resíduos. Um modelo mais adequado é polinomial com um termo quadrático e um termo linear. Os resultados são expressos na tabela a seguir: Estimativa Erro padrão Valor-P Intercepto -489,307 76,251 0,0001 x 7,511 0,984 < 0,0001 x 2-0,022 0,003 < 0,0001
O modelo apresentou R 2 ajustado de 0,864, o que indica bom poder de explicação. Os gráficos para a análise de diagnóstico são apresentados na Figura 2. Figura 2: Gráficos para a análise de diagnóstico do modelo do incremento y contra as faixas de bônus x com termo quadrático Pelo primeiro gráfico, de resíduos por valores ajustados, é possível observar que a variância parece constante pelas faixas de bônus (as dispersões dos resíduos nos valores ajustados é mais ou menos a mesma). Trata-se de um indicativo favorável à suposição de homocedasticidade utilizada no ajuste do modelo. O QQ-Norm, por sua vez, não oferece evidências fortes para a rejeição da suposição de normalidade. Por fim, há alguns pontos que apresentam resíduos um pouco mais elevados que os demais. Porém, não destoam de modo acintoso. Os códigos no R são os seguintes: x<-c(100, 100, 125, 125, 150, 150, 175, 175, 200, 200, 225, 225) y<-c(30, 44, 114, 138, 155, 163, 145, 163, 158, 126, 126, 106) mod1<-lm(y~x) summary(mod1) plot(mod1) plot(x,y) abline(mod1) mod2<-lm(y~x+i(x^2)) summary(mod2) par(mfrow=c(2,2)) plot(mod2) par(mfrow=c(1,1))
Exercício 2 Procura-se avaliar a capacidade de uma armadilha em pegar moscas. Então, realiza-se um experimento controlado: a cada realização do experimento, oito moscas são soltas e queremos contar quantas ficaram presas na armadilha. São selecionadas cinco distâncias e realizadas quatro réplicas do experimento em cada uma delas. Proponha um modelo, apresente as suposições, os resultados do ajuste no R e interprete as estimativas. Cada realização do experimento com as oito moscas resulta em um certo número de sucessos (capturas de moscas pela armadilha), e fracassos. Com isso, queremos verificar se esse número de sucessos está associado ou não à distância em que a armadilha é posicionada. A variável resposta do modelo, portanto, é o sucesso ou fracasso (a mosca foi ou não capturada). A variável explicativa é a distância a que a armadilha foi colocada. Um modelo adequado às características do experimento é a regressão logística. Uma das suposições é que a variável resposta assume apenas dois valores no caso, 0 para fracasso e 1 para sucesso. Além disso, deve estar assegurada a independência dos erros e o tamanho amostral deve ser suficientemente grande, tanto para a ocorrência de sucessos quanto para de fracassos. Os dados mostram a ocorrência de 65 sucessos e 95 fracassos. O modelo de regressão logística é um modelo que pertence à classe dos Modelos Lineares Generalizados (MLGs). Ele pode ser escrito em termos de um preditor linear η, em que: η = Xβ E(Y X) = µ = g 1 (η) A probabilidade de sucessso é definida como π(x). Na regressão logística, o preditor linear η é dado pela função logito: ( ) π(x) log = Xβ 1 π(x) Assim, o modelo de regressão proposto buscará modelar o logito como resposta. Os resultados são os seguintes: Estimativa exp(estimativa) Erro padrão Valor-P Intercepto 0,1143 1,1211 0,2443 0,6399 Distância/10-0,1339 0,8747 0,0521 0,0102 A interpretação do modelo é feita a partir da razão de chances. Assim, o aumento de 10 m na distância da armadilha leva à uma diminuição de 12, 53% (1 0, 8747) na chance de captura da mosca. Os códigos em R são os seguintes: distancia<-c(rep(6.25, 32), rep(12.5, 32), rep(25.0, 32), rep(50.0, 32), rep(100.0, 32)) moscas<-c(c(rep(0,3),rep(1,5)), c(rep(0,5),rep(1,3)), c(rep(0,4),rep(1,4)), c(rep(0,2),rep(1,6)), c(rep(0,3),rep(1,5)), c(rep(0,6),rep(1,2)), c(rep(0,3),rep(1,5)), c(rep(0,4),rep(1,4)), c(rep(0,4),rep(1,4)), c(rep(0,3),rep(1,5)), c(rep(0,5),rep(1,3)), c(rep(0,8),rep(1,0)),
c(rep(0,5),rep(1,3)), c(rep(0,4),rep(1,4)), c(rep(0,6),rep(1,2)), c(rep(0,6),rep(1,2)), c(rep(0,7),rep(1,1)), c(rep(0,6),rep(1,2)), c(rep(0,6),rep(1,2)), c(rep(0,5),rep(1,3))) boxplot(distancia~moscas) mod1<-glm(moscas~i(distancia/10), family=binomial) summary(mod1) exp(mod1$coefficients) plot(mod1) Fonte: PAULA, Gilberto A. Modelos de Regressão com Apoio Computacional. https://www.ime.usp.br/ giapaula/texto 2013.pdf. Acessado em: 13.jun.2017. Disponível em:
Exercício 3 Avalie os resíduos apresentados e verifique se alguma das suposições dos modelos de regressão linear foi violada. Primeiramente, plotamos os resíduos apresentados pelos valores de x fornecidos no ajuste. O resultado é apresentado na Figura 3. É possível observar que a variabilidade dos resíduos parece maior para o valor x = 11. Trata-se de um indicativo de que a suposição de homocedasticidade pode não ser respeitada. Figura 3: Diagrama de dispersão dos resíduos por valores de x Na sequência, apresentamos o histograma dos resíduos e o QQ-Norm com as bandas de confiança. A Figura 4 aponta que a suposição de normalidade dos resíduos pode estar sendo ferida, uma vez que os resíduos parecem bastante assimétricos e fugindo à normalidade. Figura 4: Histograma dos resíduos (esquerda) e QQ-Norm dos resíduos com bandas de confiança (direita)
Os códigos em R são: x<-c(10,10,10,10,10,11,11,11,11,11,12,12,12,12,12,12, 13,13,13,13,13,14,14,14,14,14,14) residuo<-c(-2,0,-4,12,-2,26,-4,-2,-6,2,-2,-6,2,8,-2,2, 0,4,-2,0,-4,-4,0,-4,4,-6,-2) plot(x, residuo, ylab="resíduos") par(mfrow=c(1,2)) hist(residuo,breaks = 15, main="", ylab="frequ^encia", xlab="resíduos") qqplot(residuo, xlab="quantis da N(0,1)", ylab="resíduo") par(mfrow=c(1,1))
Exercício 4 Cinquenta e quatro indivíduos são submetidos a um exame psiquiátrico para avaliar a ocorrência ou não de sintomas de demência senil. Ajuste um modelo de regressão logística e interprete os resultados. A variável resposta do modelo é a ocorrência (ou não) de demência senil. A variável explicativa é o escore obtido no teste psiquiátrico. Os resultados do modelo de regressão logística ajustado são apresentados na tabela a seguir: Estimativa exp(estimativa) Erro padrão Valor-P Intercepto 2,4040 11,0678 1,1918 0,0437 Escore -0,3235 0,7236 0,1140 0,0045 Pelos resultados, pode-se afirmar que o aumento de uma unidade no escore leva à diminuição de 27, 64% (1 0, 7236) na chance de um paciente apresentar senilidade. Os códigos em R são apresentados abaixo: Escore<-c(9,13,6,8,10,4,14,8,11,7,9, 7,5,14,13,16,10,12,11,14,15,18, 7,16,9,9,11,13,15,13,10,11,6, 17,14,19,9,11,14,10,16,10,16,14, 13,13,9,15,10,11,12,4,14,20) Resp<-c(rep(1,14), rep(0,40)) mod1<-glm(resp~escore, family=binomial) summary(mod1) exp(mod1$coefficients)
Exercício 5 a) Descreva o conjunto de dados. O conjunto de dados trata de 45 profissões dos Estados Unidos nos anos de 1950. Ele foi construído com a finalidade de investigar o prestígio das ocupações. As variáveis disponíveis são as seguintes: type: tipo de ocupação. É uma variável categórica com os seguintes níveis: prof (profissional e administrativo), wc (colarinho-branco, trata de profissionais de cargos mais elevados, gerenciais), bc (colarinho-azul, profissionais de nível intermediário). income: proporção de homens com ganhos de $3.500 ou mais. education: proporção de homens com ensino médio completo. prestige: proporção dos escores que classificam a ocupação como de nível excelente ou bom no quesito prestígio. b) Faça uma análise descritiva o mais completa possível das variáveis. Primeiramente, apresentamos uma tabela com medidas-resumo para as variáveis do banco de dados por tipo de ocupação. N Média Desvio padrão Mínimo Mediana Máximo Assimetria Curtose Prestígio 45 47,69 31,51 3,00 41,00 97,00 0,14-1,55 Colarinho azul 21 22,76 18,06 3,00 16,00 67,00 1,07-0,03 Profissional 18 80,44 14,11 45,00 85,00 97,00-1,11 0,16 Colarinho branco 6 36,67 11,79 16,00 38,50 52,00-0,52-0,95 Renda 45 41,87 24,44 7,00 42,00 81,00 0,11-1,44 Colarinho azul 21 23,76 18,11 7,00 17,00 81,00 1,55 2,17 Profissional 18 60,06 16,33 21,00 63,00 80,00-0,66-0,52 Colarinho branco 6 50,67 19,36 29,00 51,50 76,00 0,01-1,90 Educação 45 52,56 29,76 7,00 45,00 100,00 0,22-1,61 Colarinho azul 21 25,33 8,46 7,00 25,00 47,00 0,39 0,64 Profissional 18 81,33 16,82 44,00 86,00 100,00-1,13 0,06 Colarinho branco 6 61,50 18,88 34,00 63,00 87,00-0,10-1,64 Verificamos que as taxas de prestígio, renda e educação são maiores, em média, na categoria de profissionais. A categoria de colarinho azul é a que apresenta as menores taxas nas três variáveis contínuas. Portanto, há indícios de que o tipo de profissão ajude a explicar o percentual de prestígio. Quanto ao número de observações, foram encontradas no banco de dados apenas 6 profissões associadas ao tipo colarinho branco. Colarinho azul e profissional tiveram, respectivamente, 21 e 18 observações. Os percentuais mínimos de prestígio, renda e educação foram encontrados também nas profissões de colarinho azul. No entanto, a observação máxima de renda também ocorreu em uma profissão de colarinho azul. Isso pode se dever à grande assimetria positiva encontrada na renda para esse tipo de ocupação. De modo geral, há baixa assimetria positiva tanto para prestígio, quanto para renda e educação. E curtose negativa nos três casos. Apresentamos, então os boxplots, que tornam visuais os comentários expostos e facilitam a compreensão das dispersões. Podem ser observados, na Figura 5, alguns pontos outliers. Eles ocorrem no extremo superior nas três variáveis de interesse para a categoria de profissionais de colarinho azul. A categoria de profissionais apresentou algumas profissões outliers em prestígio e educação, mas no extremo inferior. Colarinho branco aparece como uma categoria intermediária de profissões por sua mediana. Há que se lembrar, contudo, que a base de dados tem apenas 6 observações desse tipo.
Figura 5: Boxplots para os percentuais de prestígio, renda e educação por tipo de ocupação
Por fim, apresentamos os gráficos de dispersão das três variáveis contínuas, uma contra a outra, na Figura 6. (a) Diagrama de dispersão de prestígio contra educação (b) Diagrama de dispersão de prestígio contra renda (c) Diagrama de dispersão de educação contra renda Figura 6: Diagramas de dispersão de prestígio, renda e educação É possível observar que as três variáveis têm associação positiva, isto é, quando aumenta o percentual de prestígio, aumentam renda e educação. Verifica-se também que a categoria de profissionais aparece com rendas, educação e prestígio mais elevados. Os códigos em R para a os gráficos são os seguintes: par(mfrow=c(3,1)) boxplot(dados$prestige~dados$type, col=c("lightskyblue", "indianred1","ivory2"), ylab="porcentagem de prestígio", main="prestígio", names=c("col. azul", "Profissionais", "Col. branco")) boxplot(dados$income~dados$type, col=c("lightskyblue", "indianred1","ivory2"), ylab="porcentagem de renda", main="renda", names=c("col. azul", "Profissionais", "Col. branco")) boxplot(dados$education~dados$type, col=c("lightskyblue", "indianred1","ivory2"), ylab="porcentagem de educaç~ao", main="educaç~ao", names=c("col. azul", "Profissionais", "Col. branco")) par(mfrow=c(1,1)) library(ggplot2) ggplot(dados, aes(x=education, y=prestige, color=type))+ geom_point() + theme_bw()+ scale_color_manual(values=c("lightskyblue", "indianred1","gray50"), name="profiss~ao",
breaks=c("bc", "prof", "wc"), labels=c("col. azul", "Profissionais", "Col. branco"))+ labs(x="percentual de prof. com ensino médio", y="percentual de prestígio >= bom") ggplot(dados, aes(x=income, y=prestige, color=type))+ geom_point() + theme_bw()+ scale_color_manual(values=c("lightskyblue", "indianred1","gray50"), name="profiss~ao", breaks=c("bc", "prof", "wc"), labels=c("col. azul", "Profissionais", "Col. branco"))+ labs(x="porcentagem de rendas >= $3.500", y="percentual de prestígio >= bom") ggplot(dados, aes(x=education, y=income, color=type))+ geom_point() + theme_bw()+ scale_color_manual(values=c("lightskyblue", "indianred1","gray50"), name="profiss~ao", breaks=c("bc", "prof", "wc"), labels=c("col. azul", "Profissionais", "Col. branco"))+ labs(x="porcentagem de prof. com ensino médio", y="porcentagem de rendas >= $3.500") c) Ajuste um modelo de regressão linear. O modelo de regressão linear tem os seguintes resultados: Estimativa Erro padrão Valor-P Intercepto -0,1850 3,71 0,9605 Educação 0,3453 0,11 0,0042 Renda 0,5976 0,09 < 0,0001 Profissional 16,6575 6,99 0,0221 Colarinho branco -14,6611 6,11 0,0211 O modelo mostra que educação e renda estão positivamente associados à taxa de prestígio. Assim, uma mudança de uma unidade na taxa de educação leva a aumento de 0,3453 na taxa de prestígio. Uma mudança de uma unidade na taxa de renda igual ou superior a $3.500 leva a aumento de 0,5976 na taxa de prestígio. Já os tipos de profissão, por sua vez, indicam que, tomando a profissão de colarinho azul como referência, há aumento de 16,6575 passando para as ocupações de tipo profissional, e diminuição de 14,6611 pontos, para a posição de colarinho branco, com a renda e a educação mantidas fixadas. É claro que as taxas de profissionais com renda mais elevada e educação igual ou superior a ensino médio são mais elevadas nas ocupações de tipo colarinho branco. Isso acaba compensando o efeito de diminuição de prestígio com relação às profissões de colarinho azul.
d) Faça uma análise de diagnóstico do modelo. Os quatro gráficos de diagnóstico para a função lm do R são apresentados na Figura 7. Figura 7: Gráficos para a análise de diagnóstico do modelo ajustado no item c) No gráfico de resíduos x valores ajustados, utilizados para verificar a suposição de homocedasticidade, não se verifica nenhum padrão que salta aos olhos. Assim, aparentemente, a suposição é válida. No QQ-Norm, há alguns pontos que fazem com que a distribuição fuja à normalidade, principalmente na cauda superior. As duas observações que se destacam são de maquinista e ministro. As duas também se destacam no gráfico de Locação-Escala, indicando que podem ser pontos outliers. Alguns pontos também são destacados como tendo grande alavancagem na distância de Cook, pelo gráfico de resíduos x alavancagem. A Figura 8 mostra o QQ-Norm com bandas de confiança. Novamente, dois pontos se destacam fugindo às bandas. Porém, todos os demais se encontram dentro do envelope.
Figura 8: QQ-Norm com bandas de confiança para os resíduos do modelo linear do item c) e) Você acha que o modelo pode ser utilizado? Justifique. Pela análise de resíduos, verificamos que não há indícios de heterocedasticidade. A dúvida maior é quanto à normalidade dos resíduos. O modelo tem um R 2 ajustado de 0,9044 e há 45 observações para o ajuste. Sua capacidade de explicação para o prestígio das profissões diante da renda, da educação e do tipo de profissão parece relevante. Com esses argumentos, o modelo pode ser utilizado. É evidente que novos modelos (que serão abordados em cursos de análise de regressão) podem ser estudados para aperfeiçoar o ajuste.