Análse Exploratóra de Dados
Objetvos Análse de duas varáves quanttatvas: traçar dagramas de dspersão, para avalar possíves relações entre as duas varáves; calcular o coefcente de correlação entre as duas varáves; obter uma reta que se ajuste aos dados segundo o crtéro de mínmos quadrados.
DIAGRAMAS DE DISPERSÃO E CORRELAÇÃO DADOS: Começaremos a aula de hoje trabalhando com dados referentes à porcentagem da população economcamente atva empregada no setor prmáro e o respectvo índce de analfabetsmo para algumas regões metropoltanas brasleras (exercíco 11 do capítulo 4).
DADOS: REGIÃO SET. PRIM. IND_ANALF. SÃO PAULO 2.0 17.5 RIO DE JANEIRO 2.5 18.5 BELÉM 2.9 19.5 BELO HORIZONTE 3.3 22.2 SALVADOR 4.1 26.5 PORTO ALEGRE 4.3 16.6 RECIFE 7.0 36.6 FORTALEZA 13.0 38.4 Fonte: Indcadores Socas para Áreas Urbanas - IBGE - 1977. volta
PROBLEMA Será que exste alguma relação entre as varáves porcentagem da população economcamente atva no setor prmáro e índce de analfabetsmo? Em caso afrmatvo, como quantfcar esta relação?
Dagrama de dspersão Vejamos como obter o dagrama de dspersão destes dados usando o R. Prmero, vamos ler os dados: dados= read.table("http://www.dme.ufrj.br/marna/analfab.txt ) names(dados)=c( RM, SP, AN ) #comando que fornece nomes para as varáves
DIAGRAMA DE DISPERSÃO plot(dados$sp, dados$an, xlab="porc. da PEA no Setor Prmaro", ylab="indce de Analfabetsmo", man= "Dagrama de Dspersao,col= blue )
Análse dos dados Você dra que há dependênca lnear entre estas varáves? Calcule a correlação entre elas. cor(dados$sp,dados$an) 0.866561 (0.867) yy xx xy n n n n n n n n S S S n y y n x x y x n y x y y n x x n y y x x n r 1 2 2 1 2 2 1 1 1 1 2 1 2 1 ) ( ) ( 1 ) ( 1 ) ( 1 ) )( ( 1
ID_ANALF CORRELAÇÃO Há alguma regão com comportamento dferente das demas? 40 30 20 2 7 SET_PRIM 12 Em caso afrmatvo, retre-a da base de dados e recalcule a correlação. dados
Porto Alegre Retrando os dados da regão metropoltana de Porto Alegre temos a segunte correlação: (observe que Porto Alegre está na lnha 6 da base de dados). dad=matrx(0,7,2) dad[,1]=c(dados[1:5,2],dados[7:8,2]) dad[,2]=c(dados[1:5,3],dados[7:8,3]) cor(dad[,1],dad[,2]) 0.9081915 (0.908) porcentagem de varação em relação à correlação ncal: 4,8% (em valor absoluto)
A porcentagem de varação fo calculada da segunte forma: 100 r r ( ) r r é a correlação calculada com base em todas as observações r() é a correlação calculada retrando-se a -ésma observação.
Fortaleza dad[,1]=c(dados[1:7,2]) dad[,2]=c(dados[1:7,3]) cor(dad[,1],dad[,2]) 0.8581972 (0.858) porcentagem de varação em relação à correlação ncal: 0,96% (em valor absoluto)
Recfe dad[,2]=c(dados[1:6,3],dados[8,3]) dad[,1]=c(dados[1:6,2],dados[8,2]) cor(dad[,1],dad[,2]) 0.9158657 (0.916) porcentagem de varação em relação à correlação ncal: 5,7% (em valor absoluto)
Salvador dad[,1]=c(dados[1:4,2],dados[6:8,2]) dad[,2]=c(dados[1:4,3],dados[6:8,3]) cor(dad[,1],dad[,2]) 0.8822678 (0.882) porcentagem de varação em relação à correlação ncal: 1,8% (em valor absoluto)
Resumo RM retrada varação % Porto Alegre 4,8 Fortaleza 0,96 Salvador 1,8 Recfe 5,7
Comentáros As regões metropoltanas que mas nfluencaram no valor da correlação foram Porto Alegre e Recfe. Porto Alegre tem um comportamento dferente, pos sua taxa de analfabetsmo é pequena comparada a sua PEA e as demas regões.
Comentáros Recfe, ao contráro, tem uma taxa de analfabetsmo alta demas comparada a sua PEA e as demas regões. Fortaleza, apesar de ser um ponto afastado dos demas, mantém o padrão da maor parte dos pontos.
Gráfcos de lustração
Gráfcos de lustração
Gráfcos de lustração
Cudados na nterpretação Uma correlação alta (próxma de 1 ou -1) pode ndcar forte dependênca lnear entre as varáves. Nesse caso, os pontos no dagrama de dspersão espalham-se em torno de uma reta. Pode haver varáves cuja correlação é próxma de 1 (ou -1), mas, na verdade, não são dretamente relaconadas. (correlação espúra) Uma correlação zero ou próxma de zero ndca ausênca de lneardade, podendo sgnfcar ausênca de relação entre as varáves ou outro tpo de dependênca entre elas.
Exemplo 2 dados= read.table("http://www.dme.ufrj.br/marna/relquadratca.txt", header=t) cor(dados$x,dados$y) 0 Observe que exste relação de dependênca entre x e y, porém essa. relação NÃO é lnear.
Correlação: Cudados na nterpretação Uma correlação amostral entre duas varáves próxma de 1 ou -1 pode só ndcar que as varáves crescem no mesmo sentdo (ou em sentdos contráros), e não que, aumentos sucessvos em uma, acarretarão aumentos sucessvos (ou dmnuções sucessvas) na outra.
Reta de mínmos quadrados Quando as varáves em análse são altamente correlaconadas e de fato pode haver uma relação de causa e efeto entre elas, o problema de fazer prevsão do valor de uma delas dado o valor da outra varável pode ser resolvdo através de uma regressão lnear smples (ajuste pela reta de mínmos quadrados). Em geral, uma das varáves é consderada como varável que pode ser controlada de alguma forma varável explcatva (ndependente - predtora) e a outra, sobre a qual deseja-se fazer prevsões, é chamada varável resposta (dependente).
EXEMPLO 3: Fonte: http://lb.stat.cmu.edu/dasl/ Trabalharemos com uma base de dados sobre o hábto de fumar e mortaldade por câncer de pulmão.
Exemplo 3 (cont.) Descrção: Os dados sumaram um estudo entre homens dstrbuídos em 25 grupos classfcados por tpo de ocupação na Inglaterra. Dos índces são apresentados para cada grupo.
Exemplo 3: varáves índce de fumo: razão do número médo de cgarros fumados por da por homem no partcular grupo de ocupação sobre a méda global de cgarros fumados por da, calculada levando-se em contas todos os homens. (méda do grupo sobre méda global) índce de mortaldade: razão da taxa de mortes causadas por câncer de pulmão entre os homens de um partcular grupo de ocupação sobre a taxa global de mortes por câncer de pulmão, calculada levando-se em conta todos os homens. (taxa no grupo sobre taxa global) Número de observações: 25
Fumo versus câncer Nomes das varáves: 1. Grupo de ocupação: grupo 2. Índce de fumo: fumo (100 = base) fumo=100: número médo de cgarros por da para o grupo é gual ao número médo global de cgarros fumados por da. fumo>100 ndca grupo que fuma em méda mas que o geral; fumo<100, grupo que fuma em méda menos que o geral.
Fumo versus câncer 3. Índce de Mortaldade: morte (100 = base) morte=100, número médo de mortes por câncer de pulmão para o grupo é gual ao número médo global de mortes por câncer de pulmão. morte>100 ndca grupo com ncdênca de mortes por câncer de pulmão maor que o geral; morte<100, ncdênca menor que o geral. arquvo: fumo.txt em www.dme.ufrj.br/marna/
Fumo versus câncer Analse estes dados avalando se há relação entre estes índces. Construa o dagrama de dspersão e calcule a correlação.
ablne Para nserr as retas tracejadas em x=100 e em y=100 após ter construído o dagrama, use os comandos: ablne(h=100,lty=2) ablne(v=100,lty=2)
Indce de fumo versus mortaldade por câncer de pulmão A partr do dagrama de dspersão é possível perceber claramente uma correlação postva entre as duas varáves em análse. cor(dados$fumo,dados$morte) [1] 0.7162398 No contexto deste exemplo faz sentdo prever o índce de mortaldade por câncer de pulmão num partcular grupo, dado o índce de fumo do grupo.
Reta de mínmos quadrados O comando no R que calcula os coefcentes da reta de mínmos quadrados é lm(...), de lnear model. No caso específco deste exemplo podemos pedr reta=lm(dados$morte~dados$fumo)
Reta de mínmos quadrados Obtém-se Coeffcents: (Intercept) dados$fumo -2.885 1.088 É o coefcente angular da reta de mínmos quadrados É o coefcente lnear da reta de mínmos quadrados Modelo ajustado: Indce de morte=-2.885+1.088x(ndce de fumo)
Gráfco da reta obtda Para nserr o gráfco da reta obtda no ajuste de mínmos quadrados no dagrama de dspersão dos pontos, basta, após obter o dagrama de dspersão, pedr ablne(reta$coeffcents)
ponts Para nserr o ponto médo no gráfco use o comando: ponts(mean(dados$fumo),mean(dados$morte),pch= *,col= red,cex=2)
Comentáros Depos de proposto um modelo é fundamental realzar a etapa de valdação do modelo em que boa parte consste numa análse exploratóra detalhada dos resíduos do modelo. Apenas após a etapa de valdação e a escolha do modelo é que podemos partr para a etapa de prevsões.
Valores ajustados Após ajustar a reta, usando a função lm váras nformações fcam dsponíves, entre elas os valores ajustados da varável resposta pela reta obtda. reta$ftted (#usando reta=lm(dados$morte~dados$fumo fornece os valores ajustados)
Resíduos O resíduo do modelo é defndo pela dferença entre O valor observado da varável resposta e o valo Ajustado pelo modelo. Resíduos da reta de mínmos quadrados: reta$resduals round(reta$resduals,dgts=2) 1 2 3 4 5 6 7 8 9 10 11 3.15-30.11-1.36 28.66 31.73-7.04 0.17 14.74 11.18-20.04 7.92 12 13 14 15 16 17 18 19 20 21 22 18.78-27.48-22.92 23.99 22.26-20.06 4.24 5.82 3.69-12.73-11.08 23 24 25 14.13-19.77-17.89
Análse dos resíduos Ramo-e-folhas dos resíduos: > stem(round(reta$resduals,dgts=2)) -2 073000-0 83171 0 0344681459 2 2492 Também avalamos o hstograma, e o gráfco dos resíduos versus os valores ajustados.
Valores ajustados Valores ajustados da reta de mínmos quadrados: reta$ftted round(reta$ftted,dgts=2) 80.85 146.11 124.36 99.34 123.27 108.04 117.83 98.26 92.82 108.04 96.08 110.22 113.48 118.92 120.01 116.74 133.06 141.76 122.18 111.31 91.73 96.08 105.87 79.77 68.89
Crtéro de mínmos quadrados Como são obtdos os coefcentes da reta de mínmos quadrados? Nossos dados podem ser pensados como uma coleção bvarada: ( x, y ), ( x 1 2, y 2 ),...,( x n, y 1 n ) Fo consderado adequado o modelo x para explcar y.
Crtéro de mínmos quadrados Crtéro de Mínmos quadrados: escolha e de tal manera que seja mnmzada a soma de quadrados dos resíduos: n 1 r 2 n 1 ( y x ) 2
Crtéro de mínmos quadrados Solução: xx xy n n S S x x x x y y b 2 1 1 ) ( ) )( ( bx y a Coefcente de nclnação da reta Coefcente lnear da reta (ntercepto)
Resumo: lsta de novas funções cor: calcula a correlação; lm: ajusta a reta de mínmos quadrados; ablne: nsere uma reta num plot; ponts: nsere pontos(x,y) num plot; round(x,dgts=n); arredonda os valores em x para n casas decmas.