MAE Estatística Descritiva - 1 o semestre de 2017 Professora: Márcia D Elia Branco Monitora PAE: Simone Harnik Gabarito - Lista 4

Documentos relacionados
Regressão Linear Múltipla no R MAE-0217: ESTATÍSTICA DESCRITIVA MAIO DE 2017 PROFESSORA: MÁRCIA D ELIA BRANCO

Análise de Resíduos. investigar características que comprometem a validade do MRLS:

Análise de Resíduos. investiga características que comprometem a validade do MRLS:

Exemplos Modelos de Quase-Verossimilhança

Exemplos Equações de Estimação Generalizadas

MAE Planejamento e Pesquisa II

1 z 1 1 z 2. Z =. 1 z n

Exemplo Vida Útil de Ferramentas

UNIVERSIDADE FEDERAL DO PARANÁ SETOR DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão Linear Simples - Análise de Resíduos

Mais Informações sobre Itens do Relatório

Modelos de Regressão para Dados de Contagem

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

Distribuição Gaussiana. Verificação da Suposição de Normalidade dos Dados

UNIVERSIDADE FEDERAL DO PARANÁ DEPARTAMENTO DE ESTATÍSTICA

Regressão para Dados Binários - Estudo de Dengue

Análise de Regressão EST036

I.1. Seleccionado um passageiro ao acaso, qual a probabilidade de ter idade no intervalo [20 a 50) anos e ser fraudulento?

MAE Estatística Descritiva - 1 o semestre de 2017 Professora: Márcia D Elia Branco Gabarito - Lista 1. x i = 19, 01 (1) x = 1 15

Exemplos Regressão Dados de Contagem

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA CALEB SOUZA GRR DENNIS LEÃO GRR LUAN FIORENTIN GRR

Analise de sobreviventes em acidentes de carros

Número de Consultas ao Médico

CONHECIMENTOS ESPECÍFICOS

MAE Modelos Lineares Generalizados 2 o semestre 2017

CONHECIMENTOS ESPECÍFICOS

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

1 Introdução aos Métodos Estatísticos para Geografia 1

MÉTODO MEAN SHIFT PARA DETECÇÃO DE OUTLIERS EM MODELOS NORMAIS ASSIMÉTRICOS

RELACÃO DO CRIME EM CIDADES PEQUENAS COM CUSTO, IDADE E ANOS DE ESTUDO DE ESTADOS DA AMERICA DO NORTE

ESTUDO SOBRE A TAXA ANUAL DE CÂNCER NASAL EM UMA REFINARIA DE NÍQUEL NO PAÍS DE GALES

CONHECIMENTOS ESPECÍFICOS

CE-003: Estatística II - Turma: AMB, Avaliações Semanais 1 o semestre/2012

Trabalho de Modelos Lineares Generalizados

Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades sobre amostra

Grupo A - 1 semestre de 2012 Lista de exercícios 2 - Estatística Descritiva II C A S A (gabarito)

Estatística para Geografia. Rio, 13/09/2018

UNIVERSIDADE FEDERAL DO PARANÁ CURSO DE ESTATÍSTICA. Jayme Gomes dos Santos Junior Luciana Helena Kowalski

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Lista de Exercícios Cap. 2

Exemplo Cupons com Desconto

Exemplos Regressão Dados Binários

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

UNIVERSIDADE FEDERAL DO PARANÁ. Adriane Machado (GRR ), Cinthia Zamin Cavassola(GRR ) e Luiza Hoffelder da Costa(GRR )

Exemplo Multicolinearidade

Modelos Lineares Generalizados

Modelos Lineares Generalizados para Dados de Contagem Ananda Bordignon, Brendha Lima, Giovanna Lazzarin 28 de novembro de 2018

Tutorial para o desenvolvimento das Oficinas

Análise de Dados Categóricos

Correlação e Regressão

Exemplo Abastecimento de Refrigerantes

Exemplo Cupons com Desconto

Exemplo Regressão Robusta

Exemplo Número de Clientes da Loja

INSTRUÇÕES. O tempo disponível para a realização das duas provas e o preenchimento da Folha de Respostas é de 5 (cinco) horas no total.

RESOLUÇÃO Nº 01/2016

INFLUÊNCIA DE PONTOS ATÍPICOS. investigar a causa das discrepâncias

Modelos de Regressão Linear Simples - parte III

Verificando as pressuposições do modelo estatístico

CONHECIMENTOS ESPECÍFICOS

Renda x Vulnerabilidade Ambiental

Para as opções de dólar, os resultados encontrados foram os seguintes: Corrado Su Modificado IN THE MONEY 100,63% 97,57% 100,53% 100,51%

Aula 2 Uma breve revisão sobre modelos lineares

Análise de Dados Longitudinais Aula

Estatística para Cursos de Engenharia e Informática

REGRESSÃO LINEAR Parte II. Flávia F. Feitosa

Lista 1 - Gabarito. Prof. Erica Castilho Rodrigues Disciplina: Modelos Lineares Generalizados. 29 de Abril. f(y i, θ i ) = θ i exp( yiθ i ).

Correlação e Regressão Linear

Inferência Estatística: Conceitos Básicos I

Aula inaugural do curso Análise de Regressão

Aplicação de modelos lineares generalizados na captura de atum da espécie Thunnus albacares.

4 APLICAÇÕES À SÉRIE TEMPORAL DE CONSUMO RESIDENCIAL MENSAL DE ENERGIA ELÉTRICA

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR LUAN FIORENTIN GRR

Análise da Regressão. Prof. Dr. Alberto Franke (48)

9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

Mario de Andrade Lira Junior lira.pro.br\wordpress

Introdução à Regressão Logística Quantílica

Relatório de análise estatística Bairro : Dois Irmãos Recife/PE

Análise Multivariada Aplicada à Contabilidade

Coeficiente de determinação R 2 no modelo de regressão linear normal

Princípios em Planejamento e Análise de Dados Ecológicos. Regressão linear. Camila de Toledo Castanho

Modelos de Regressão Múltipla - Parte VI

Universidade Federal de Lavras Departamento de Estatística Prof. Daniel Furtado Ferreira 4 a Aula Prática Medidas de Dispersão

Disciplina de Modelos Lineares Professora Ariane Ferreira

Modelos de regressão para dados correlacionados. Cibele Russo

Coeficiente de Assimetria

EXPLORANDO OS MODELOS LINEARES GENERALIZADOS APLICAÇÃO A DADOS DE UM PEQUENO SUPERMERCADO

MAE 317 Planejamento e Pesquisa I Profa. Júlia Maria Pavan Soler

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2

PROVA DE ESTATÍSTICA SELEÇÃO MESTRADO/UFMG 2006

Regression and Clinical prediction models

AULA 07 Regressão. Ernesto F. L. Amaral. 05 de outubro de 2013

Na aula do dia 24 de outubro analisamos duas variáveis quantitativas conjuntamente com o objetivo de verificar se existe alguma relação entre elas.

Regressão linear simples

Exemplo Ataques Epilépticos

Transcrição:

MAE0217 - Estatística Descritiva - 1 o semestre de 2017 Professora: Márcia D Elia Branco Monitora PAE: Simone Harnik Gabarito - Lista 4 Exercício 1 Uma rede de supermercados decidiu dar um bônus aos clientes em seis faixas. Mediu-se o incremento y para as faixas de compras x. a) Ajuste o modelo linear. O modelo linear ajustado tem as seguintes estimativas. Estimativa Erro padrão Valor-P Intercepto 40,99 45,37 0,3875 x 0,50 0,27 0,0935 Verifica-se significância marginal (ao nível de 10%) das faixas de bônus no incremento de consumo y. b) Faça o diagrama de dispersão com a reta ajustada. Você acha o modelo adequado? O diagrama de dispersão da Figura 1 mostra uma tendência quadrática do incremento y em relação às faixas de bônus x. A reta ajustada pelo modelo de regressão parece não estar adequada para explicar a variação em y, segundo as faixas x de bônus. Figura 1: Gráfico de dispersão do incremento y contra as faixas de bônus x c) Proponha um modelo mais adequado e faça a análise de resíduos. Um modelo mais adequado é polinomial com um termo quadrático e um termo linear. Os resultados são expressos na tabela a seguir: Estimativa Erro padrão Valor-P Intercepto -489,307 76,251 0,0001 x 7,511 0,984 < 0,0001 x 2-0,022 0,003 < 0,0001

O modelo apresentou R 2 ajustado de 0,864, o que indica bom poder de explicação. Os gráficos para a análise de diagnóstico são apresentados na Figura 2. Figura 2: Gráficos para a análise de diagnóstico do modelo do incremento y contra as faixas de bônus x com termo quadrático Pelo primeiro gráfico, de resíduos por valores ajustados, é possível observar que a variância parece constante pelas faixas de bônus (as dispersões dos resíduos nos valores ajustados é mais ou menos a mesma). Trata-se de um indicativo favorável à suposição de homocedasticidade utilizada no ajuste do modelo. O QQ-Norm, por sua vez, não oferece evidências fortes para a rejeição da suposição de normalidade. Por fim, há alguns pontos que apresentam resíduos um pouco mais elevados que os demais. Porém, não destoam de modo acintoso. Os códigos no R são os seguintes: x<-c(100, 100, 125, 125, 150, 150, 175, 175, 200, 200, 225, 225) y<-c(30, 44, 114, 138, 155, 163, 145, 163, 158, 126, 126, 106) mod1<-lm(y~x) summary(mod1) plot(mod1) plot(x,y) abline(mod1) mod2<-lm(y~x+i(x^2)) summary(mod2) par(mfrow=c(2,2)) plot(mod2) par(mfrow=c(1,1))

Exercício 2 Procura-se avaliar a capacidade de uma armadilha em pegar moscas. Então, realiza-se um experimento controlado: a cada realização do experimento, oito moscas são soltas e queremos contar quantas ficaram presas na armadilha. São selecionadas cinco distâncias e realizadas quatro réplicas do experimento em cada uma delas. Proponha um modelo, apresente as suposições, os resultados do ajuste no R e interprete as estimativas. Cada realização do experimento com as oito moscas resulta em um certo número de sucessos (capturas de moscas pela armadilha), e fracassos. Com isso, queremos verificar se esse número de sucessos está associado ou não à distância em que a armadilha é posicionada. A variável resposta do modelo, portanto, é o sucesso ou fracasso (a mosca foi ou não capturada). A variável explicativa é a distância a que a armadilha foi colocada. Um modelo adequado às características do experimento é a regressão logística. Uma das suposições é que a variável resposta assume apenas dois valores no caso, 0 para fracasso e 1 para sucesso. Além disso, deve estar assegurada a independência dos erros e o tamanho amostral deve ser suficientemente grande, tanto para a ocorrência de sucessos quanto para de fracassos. Os dados mostram a ocorrência de 65 sucessos e 95 fracassos. O modelo de regressão logística é um modelo que pertence à classe dos Modelos Lineares Generalizados (MLGs). Ele pode ser escrito em termos de um preditor linear η, em que: η = Xβ E(Y X) = µ = g 1 (η) A probabilidade de sucessso é definida como π(x). Na regressão logística, o preditor linear η é dado pela função logito: ( ) π(x) log = Xβ 1 π(x) Assim, o modelo de regressão proposto buscará modelar o logito como resposta. Os resultados são os seguintes: Estimativa exp(estimativa) Erro padrão Valor-P Intercepto 0,1143 1,1211 0,2443 0,6399 Distância/10-0,1339 0,8747 0,0521 0,0102 A interpretação do modelo é feita a partir da razão de chances. Assim, o aumento de 10 m na distância da armadilha leva à uma diminuição de 12, 53% (1 0, 8747) na chance de captura da mosca. Os códigos em R são os seguintes: distancia<-c(rep(6.25, 32), rep(12.5, 32), rep(25.0, 32), rep(50.0, 32), rep(100.0, 32)) moscas<-c(c(rep(0,3),rep(1,5)), c(rep(0,5),rep(1,3)), c(rep(0,4),rep(1,4)), c(rep(0,2),rep(1,6)), c(rep(0,3),rep(1,5)), c(rep(0,6),rep(1,2)), c(rep(0,3),rep(1,5)), c(rep(0,4),rep(1,4)), c(rep(0,4),rep(1,4)), c(rep(0,3),rep(1,5)), c(rep(0,5),rep(1,3)), c(rep(0,8),rep(1,0)),

c(rep(0,5),rep(1,3)), c(rep(0,4),rep(1,4)), c(rep(0,6),rep(1,2)), c(rep(0,6),rep(1,2)), c(rep(0,7),rep(1,1)), c(rep(0,6),rep(1,2)), c(rep(0,6),rep(1,2)), c(rep(0,5),rep(1,3))) boxplot(distancia~moscas) mod1<-glm(moscas~i(distancia/10), family=binomial) summary(mod1) exp(mod1$coefficients) plot(mod1) Fonte: PAULA, Gilberto A. Modelos de Regressão com Apoio Computacional. https://www.ime.usp.br/ giapaula/texto 2013.pdf. Acessado em: 13.jun.2017. Disponível em:

Exercício 3 Avalie os resíduos apresentados e verifique se alguma das suposições dos modelos de regressão linear foi violada. Primeiramente, plotamos os resíduos apresentados pelos valores de x fornecidos no ajuste. O resultado é apresentado na Figura 3. É possível observar que a variabilidade dos resíduos parece maior para o valor x = 11. Trata-se de um indicativo de que a suposição de homocedasticidade pode não ser respeitada. Figura 3: Diagrama de dispersão dos resíduos por valores de x Na sequência, apresentamos o histograma dos resíduos e o QQ-Norm com as bandas de confiança. A Figura 4 aponta que a suposição de normalidade dos resíduos pode estar sendo ferida, uma vez que os resíduos parecem bastante assimétricos e fugindo à normalidade. Figura 4: Histograma dos resíduos (esquerda) e QQ-Norm dos resíduos com bandas de confiança (direita)

Os códigos em R são: x<-c(10,10,10,10,10,11,11,11,11,11,12,12,12,12,12,12, 13,13,13,13,13,14,14,14,14,14,14) residuo<-c(-2,0,-4,12,-2,26,-4,-2,-6,2,-2,-6,2,8,-2,2, 0,4,-2,0,-4,-4,0,-4,4,-6,-2) plot(x, residuo, ylab="resíduos") par(mfrow=c(1,2)) hist(residuo,breaks = 15, main="", ylab="frequ^encia", xlab="resíduos") qqplot(residuo, xlab="quantis da N(0,1)", ylab="resíduo") par(mfrow=c(1,1))

Exercício 4 Cinquenta e quatro indivíduos são submetidos a um exame psiquiátrico para avaliar a ocorrência ou não de sintomas de demência senil. Ajuste um modelo de regressão logística e interprete os resultados. A variável resposta do modelo é a ocorrência (ou não) de demência senil. A variável explicativa é o escore obtido no teste psiquiátrico. Os resultados do modelo de regressão logística ajustado são apresentados na tabela a seguir: Estimativa exp(estimativa) Erro padrão Valor-P Intercepto 2,4040 11,0678 1,1918 0,0437 Escore -0,3235 0,7236 0,1140 0,0045 Pelos resultados, pode-se afirmar que o aumento de uma unidade no escore leva à diminuição de 27, 64% (1 0, 7236) na chance de um paciente apresentar senilidade. Os códigos em R são apresentados abaixo: Escore<-c(9,13,6,8,10,4,14,8,11,7,9, 7,5,14,13,16,10,12,11,14,15,18, 7,16,9,9,11,13,15,13,10,11,6, 17,14,19,9,11,14,10,16,10,16,14, 13,13,9,15,10,11,12,4,14,20) Resp<-c(rep(1,14), rep(0,40)) mod1<-glm(resp~escore, family=binomial) summary(mod1) exp(mod1$coefficients)

Exercício 5 a) Descreva o conjunto de dados. O conjunto de dados trata de 45 profissões dos Estados Unidos nos anos de 1950. Ele foi construído com a finalidade de investigar o prestígio das ocupações. As variáveis disponíveis são as seguintes: type: tipo de ocupação. É uma variável categórica com os seguintes níveis: prof (profissional e administrativo), wc (colarinho-branco, trata de profissionais de cargos mais elevados, gerenciais), bc (colarinho-azul, profissionais de nível intermediário). income: proporção de homens com ganhos de $3.500 ou mais. education: proporção de homens com ensino médio completo. prestige: proporção dos escores que classificam a ocupação como de nível excelente ou bom no quesito prestígio. b) Faça uma análise descritiva o mais completa possível das variáveis. Primeiramente, apresentamos uma tabela com medidas-resumo para as variáveis do banco de dados por tipo de ocupação. N Média Desvio padrão Mínimo Mediana Máximo Assimetria Curtose Prestígio 45 47,69 31,51 3,00 41,00 97,00 0,14-1,55 Colarinho azul 21 22,76 18,06 3,00 16,00 67,00 1,07-0,03 Profissional 18 80,44 14,11 45,00 85,00 97,00-1,11 0,16 Colarinho branco 6 36,67 11,79 16,00 38,50 52,00-0,52-0,95 Renda 45 41,87 24,44 7,00 42,00 81,00 0,11-1,44 Colarinho azul 21 23,76 18,11 7,00 17,00 81,00 1,55 2,17 Profissional 18 60,06 16,33 21,00 63,00 80,00-0,66-0,52 Colarinho branco 6 50,67 19,36 29,00 51,50 76,00 0,01-1,90 Educação 45 52,56 29,76 7,00 45,00 100,00 0,22-1,61 Colarinho azul 21 25,33 8,46 7,00 25,00 47,00 0,39 0,64 Profissional 18 81,33 16,82 44,00 86,00 100,00-1,13 0,06 Colarinho branco 6 61,50 18,88 34,00 63,00 87,00-0,10-1,64 Verificamos que as taxas de prestígio, renda e educação são maiores, em média, na categoria de profissionais. A categoria de colarinho azul é a que apresenta as menores taxas nas três variáveis contínuas. Portanto, há indícios de que o tipo de profissão ajude a explicar o percentual de prestígio. Quanto ao número de observações, foram encontradas no banco de dados apenas 6 profissões associadas ao tipo colarinho branco. Colarinho azul e profissional tiveram, respectivamente, 21 e 18 observações. Os percentuais mínimos de prestígio, renda e educação foram encontrados também nas profissões de colarinho azul. No entanto, a observação máxima de renda também ocorreu em uma profissão de colarinho azul. Isso pode se dever à grande assimetria positiva encontrada na renda para esse tipo de ocupação. De modo geral, há baixa assimetria positiva tanto para prestígio, quanto para renda e educação. E curtose negativa nos três casos. Apresentamos, então os boxplots, que tornam visuais os comentários expostos e facilitam a compreensão das dispersões. Podem ser observados, na Figura 5, alguns pontos outliers. Eles ocorrem no extremo superior nas três variáveis de interesse para a categoria de profissionais de colarinho azul. A categoria de profissionais apresentou algumas profissões outliers em prestígio e educação, mas no extremo inferior. Colarinho branco aparece como uma categoria intermediária de profissões por sua mediana. Há que se lembrar, contudo, que a base de dados tem apenas 6 observações desse tipo.

Figura 5: Boxplots para os percentuais de prestígio, renda e educação por tipo de ocupação

Por fim, apresentamos os gráficos de dispersão das três variáveis contínuas, uma contra a outra, na Figura 6. (a) Diagrama de dispersão de prestígio contra educação (b) Diagrama de dispersão de prestígio contra renda (c) Diagrama de dispersão de educação contra renda Figura 6: Diagramas de dispersão de prestígio, renda e educação É possível observar que as três variáveis têm associação positiva, isto é, quando aumenta o percentual de prestígio, aumentam renda e educação. Verifica-se também que a categoria de profissionais aparece com rendas, educação e prestígio mais elevados. Os códigos em R para a os gráficos são os seguintes: par(mfrow=c(3,1)) boxplot(dados$prestige~dados$type, col=c("lightskyblue", "indianred1","ivory2"), ylab="porcentagem de prestígio", main="prestígio", names=c("col. azul", "Profissionais", "Col. branco")) boxplot(dados$income~dados$type, col=c("lightskyblue", "indianred1","ivory2"), ylab="porcentagem de renda", main="renda", names=c("col. azul", "Profissionais", "Col. branco")) boxplot(dados$education~dados$type, col=c("lightskyblue", "indianred1","ivory2"), ylab="porcentagem de educaç~ao", main="educaç~ao", names=c("col. azul", "Profissionais", "Col. branco")) par(mfrow=c(1,1)) library(ggplot2) ggplot(dados, aes(x=education, y=prestige, color=type))+ geom_point() + theme_bw()+ scale_color_manual(values=c("lightskyblue", "indianred1","gray50"), name="profiss~ao",

breaks=c("bc", "prof", "wc"), labels=c("col. azul", "Profissionais", "Col. branco"))+ labs(x="percentual de prof. com ensino médio", y="percentual de prestígio >= bom") ggplot(dados, aes(x=income, y=prestige, color=type))+ geom_point() + theme_bw()+ scale_color_manual(values=c("lightskyblue", "indianred1","gray50"), name="profiss~ao", breaks=c("bc", "prof", "wc"), labels=c("col. azul", "Profissionais", "Col. branco"))+ labs(x="porcentagem de rendas >= $3.500", y="percentual de prestígio >= bom") ggplot(dados, aes(x=education, y=income, color=type))+ geom_point() + theme_bw()+ scale_color_manual(values=c("lightskyblue", "indianred1","gray50"), name="profiss~ao", breaks=c("bc", "prof", "wc"), labels=c("col. azul", "Profissionais", "Col. branco"))+ labs(x="porcentagem de prof. com ensino médio", y="porcentagem de rendas >= $3.500") c) Ajuste um modelo de regressão linear. O modelo de regressão linear tem os seguintes resultados: Estimativa Erro padrão Valor-P Intercepto -0,1850 3,71 0,9605 Educação 0,3453 0,11 0,0042 Renda 0,5976 0,09 < 0,0001 Profissional 16,6575 6,99 0,0221 Colarinho branco -14,6611 6,11 0,0211 O modelo mostra que educação e renda estão positivamente associados à taxa de prestígio. Assim, uma mudança de uma unidade na taxa de educação leva a aumento de 0,3453 na taxa de prestígio. Uma mudança de uma unidade na taxa de renda igual ou superior a $3.500 leva a aumento de 0,5976 na taxa de prestígio. Já os tipos de profissão, por sua vez, indicam que, tomando a profissão de colarinho azul como referência, há aumento de 16,6575 passando para as ocupações de tipo profissional, e diminuição de 14,6611 pontos, para a posição de colarinho branco, com a renda e a educação mantidas fixadas. É claro que as taxas de profissionais com renda mais elevada e educação igual ou superior a ensino médio são mais elevadas nas ocupações de tipo colarinho branco. Isso acaba compensando o efeito de diminuição de prestígio com relação às profissões de colarinho azul.

d) Faça uma análise de diagnóstico do modelo. Os quatro gráficos de diagnóstico para a função lm do R são apresentados na Figura 7. Figura 7: Gráficos para a análise de diagnóstico do modelo ajustado no item c) No gráfico de resíduos x valores ajustados, utilizados para verificar a suposição de homocedasticidade, não se verifica nenhum padrão que salta aos olhos. Assim, aparentemente, a suposição é válida. No QQ-Norm, há alguns pontos que fazem com que a distribuição fuja à normalidade, principalmente na cauda superior. As duas observações que se destacam são de maquinista e ministro. As duas também se destacam no gráfico de Locação-Escala, indicando que podem ser pontos outliers. Alguns pontos também são destacados como tendo grande alavancagem na distância de Cook, pelo gráfico de resíduos x alavancagem. A Figura 8 mostra o QQ-Norm com bandas de confiança. Novamente, dois pontos se destacam fugindo às bandas. Porém, todos os demais se encontram dentro do envelope.

Figura 8: QQ-Norm com bandas de confiança para os resíduos do modelo linear do item c) e) Você acha que o modelo pode ser utilizado? Justifique. Pela análise de resíduos, verificamos que não há indícios de heterocedasticidade. A dúvida maior é quanto à normalidade dos resíduos. O modelo tem um R 2 ajustado de 0,9044 e há 45 observações para o ajuste. Sua capacidade de explicação para o prestígio das profissões diante da renda, da educação e do tipo de profissão parece relevante. Com esses argumentos, o modelo pode ser utilizado. É evidente que novos modelos (que serão abordados em cursos de análise de regressão) podem ser estudados para aperfeiçoar o ajuste.