Análise Exploratória de Dados

Documentos relacionados
Análise Exploratória de Dados

Estatística para Geografia. Rio, 13/09/2018

Aula Prática 1. Uso do R com exemplos Adaptação: Flávia Landim/UFRJ

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Análise de Regressão

Prof. Lorí Viali, Dr.

Estatística II Antonio Roque Aula 18. Regressão Linear

Métodos Avançados em Epidemiologia

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

Associação entre duas variáveis quantitativas

1. CORRELAÇÃO E REGRESSÃO LINEAR

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr.

Correlação. Frases. Roteiro. 1. Coeficiente de Correlação 2. Interpretação de r 3. Análise de Correlação 4. Aplicação Computacional 5.

CORRELAÇÃO E REGRESSÃO

Gabarito da Lista de Exercícios de Econometria I

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

Regressão Múltipla. Parte I: Modelo Geral e Estimação

Contabilometria. Aula 8 Regressão Linear Simples

Gráficos de Controle para Processos Autocorrelacionados

REGRESSÃO LINEAR ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA REGRESSÃO CURVILÍNEA FUNÇÃO QUADRÁTICA

4 Critérios para Avaliação dos Cenários

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

Tabela 1. Porcentagem de crianças imunizadas contra DPT e taxa de mortalidade de menores de 5 anos para 20 países, 1992.

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES

Prof. Lorí Viali, Dr.

CAPÍTULO 2 - Estatística Descritiva

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 4

REGRESSÃO NÃO LINEAR 27/06/2017

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional. ou experimental.

CURSO de ESTATÍSTICA Gabarito

Cap. 11 Correlação e Regressão

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

Regressão Linear Simples by Estevam Martins

Estatística Aplicada II CORRELAÇÃO. AULA 21 07/11/16 Prof a Lilian M. Lima Cunha

Termo-Estatística Licenciatura: 4ª Aula (08/03/2013)

Testes não-paramétricos

UNIVERSIDADE DE PERNAMBUCO. Física Experimental. Prof o José Wilson Vieira

REGRESSÃO LINEAR ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA REGRESSÃO CURVILÍNEA FUNÇÃO QUADRÁTICA VERIFICAÇÃO DO AJUSTE A UMA RETA PELO COEFICIENTE 3 X 3

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Modelo Logístico. Modelagem multivariável com variáveis quantitativas e qualitativas, com resposta binária.

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 2

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

Capítulo 1. Exercício 5. Capítulo 2 Exercício

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 1

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16%

Capítulo 2. Modelos de Regressão

3. Estatística descritiva bidimensional

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 3

Análise de influência

O problema da superdispersão na análise de dados de contagens

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

ESTUDO DE MODELOS PARA AJUSTE E PREVISÃO DE UMA SÉRIE TEMPORAL

INSTITUTO POLITÉCNICO DE VISEU ESCOLA SUPERIOR DE TECNOLOGIA E GESTÃO

Capítulo 2. APROXIMAÇÕES NUMÉRICAS 1D EM MALHAS UNIFORMES

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

Análise de Regressão Linear Múltipla VII

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

Escola Superior de Tecnologia de Viseu. Fundamentos de Estatística 2006/2007 Ficha nº 7

O problema da superdispersão na análise de dados de contagens

PROVA 2 Cálculo Numérico. Q1. (2.0) (20 min)

Covariância na Propagação de Erros

Ajuste de Curvas Regressão. Computação 2º Semestre 2016/2017

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 2010/2011

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas

CÁLCULO NUMÉRICO. Profa. Dra. Yara de Souza Tadano

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Experiência V (aulas 08 e 09) Curvas características

7 - Distribuição de Freqüências

R X. X(s) Y Y(s) Variáveis aleatórias discretas bidimensionais

Modelagem do crescimento de clones de Eucalyptus via modelos não lineares

Representação e Descrição de Regiões

2ª Atividade Formativa UC ECS

6 ALOCAÇÃO POR ÚLTIMA ADIÇÃO (UA)

Análise Descritiva com Dados Agrupados

Variável discreta: X = número de divórcios por indivíduo

MODELOS DE REGRESSÃO PARAMÉTRICOS

PRESSUPOSTOS DO MODELO DE REGRESSÃO

Tipo tratamento idade Tipo tratamento sexo

Resumos Numéricos de Distribuições

Probabilidade e Estatística I Antonio Roque Aula 4. Resumos Numéricos de Distribuições

Estudo e Previsão da Demanda de Energia Elétrica. Parte II

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Algarismos Significativos Propagação de Erros ou Desvios

ANÁLISE DE COMPONENTES PRINCIPAIS, ANÁLISE FATORIAL: Exemplos em STATA. Prof. Dr. Evandro Marcos Saidel Ribeiro RESUMO

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

Programa de Certificação de Medidas de um laboratório

Y X Baixo Alto Total Baixo 1 (0,025) 7 (0,175) 8 (0,20) Alto 19 (0,475) 13 (0,325) 32 (0,80) Total 20 (0,50) 20 (0,50) 40 (1,00)

Transcrição:

Análse Exploratóra de Dados

Objetvos Análse de duas varáves quanttatvas: traçar dagramas de dspersão, para avalar possíves relações entre as duas varáves; calcular o coefcente de correlação entre as duas varáves; obter uma reta que se ajuste aos dados segundo o crtéro de mínmos quadrados.

DIAGRAMAS DE DISPERSÃO E CORRELAÇÃO DADOS: Começaremos a aula de hoje trabalhando com dados referentes à porcentagem da população economcamente atva empregada no setor prmáro e o respectvo índce de analfabetsmo para algumas regões metropoltanas brasleras (exercíco 11 do capítulo 4).

DADOS: REGIÃO SET. PRIM. IND_ANALF. SÃO PAULO 2.0 17.5 RIO DE JANEIRO 2.5 18.5 BELÉM 2.9 19.5 BELO HORIZONTE 3.3 22.2 SALVADOR 4.1 26.5 PORTO ALEGRE 4.3 16.6 RECIFE 7.0 36.6 FORTALEZA 13.0 38.4 Fonte: Indcadores Socas para Áreas Urbanas - IBGE - 1977. volta

PROBLEMA Será que exste alguma relação entre as varáves porcentagem da população economcamente atva no setor prmáro e índce de analfabetsmo? Em caso afrmatvo, como quantfcar esta relação?

Dagrama de dspersão Vejamos como obter o dagrama de dspersão destes dados usando o R. Prmero, vamos ler os dados: dados= read.table("http://www.dme.ufrj.br/marna/analfab.txt ) names(dados)=c( RM, SP, AN ) #comando que fornece nomes para as varáves

DIAGRAMA DE DISPERSÃO plot(dados$sp, dados$an, xlab="porc. da PEA no Setor Prmaro", ylab="indce de Analfabetsmo", man= "Dagrama de Dspersao,col= blue )

Análse dos dados Você dra que há dependênca lnear entre estas varáves? Calcule a correlação entre elas. cor(dados$sp,dados$an) 0.866561 (0.867) yy xx xy n n n n n n n n S S S n y y n x x y x n y x y y n x x n y y x x n r 1 2 2 1 2 2 1 1 1 1 2 1 2 1 ) ( ) ( 1 ) ( 1 ) ( 1 ) )( ( 1

ID_ANALF CORRELAÇÃO Há alguma regão com comportamento dferente das demas? 40 30 20 2 7 SET_PRIM 12 Em caso afrmatvo, retre-a da base de dados e recalcule a correlação. dados

Porto Alegre Retrando os dados da regão metropoltana de Porto Alegre temos a segunte correlação: (observe que Porto Alegre está na lnha 6 da base de dados). dad=matrx(0,7,2) dad[,1]=c(dados[1:5,2],dados[7:8,2]) dad[,2]=c(dados[1:5,3],dados[7:8,3]) cor(dad[,1],dad[,2]) 0.9081915 (0.908) porcentagem de varação em relação à correlação ncal: 4,8% (em valor absoluto)

A porcentagem de varação fo calculada da segunte forma: 100 r r ( ) r r é a correlação calculada com base em todas as observações r() é a correlação calculada retrando-se a -ésma observação.

Fortaleza dad[,1]=c(dados[1:7,2]) dad[,2]=c(dados[1:7,3]) cor(dad[,1],dad[,2]) 0.8581972 (0.858) porcentagem de varação em relação à correlação ncal: 0,96% (em valor absoluto)

Recfe dad[,2]=c(dados[1:6,3],dados[8,3]) dad[,1]=c(dados[1:6,2],dados[8,2]) cor(dad[,1],dad[,2]) 0.9158657 (0.916) porcentagem de varação em relação à correlação ncal: 5,7% (em valor absoluto)

Salvador dad[,1]=c(dados[1:4,2],dados[6:8,2]) dad[,2]=c(dados[1:4,3],dados[6:8,3]) cor(dad[,1],dad[,2]) 0.8822678 (0.882) porcentagem de varação em relação à correlação ncal: 1,8% (em valor absoluto)

Resumo RM retrada varação % Porto Alegre 4,8 Fortaleza 0,96 Salvador 1,8 Recfe 5,7

Comentáros As regões metropoltanas que mas nfluencaram no valor da correlação foram Porto Alegre e Recfe. Porto Alegre tem um comportamento dferente, pos sua taxa de analfabetsmo é pequena comparada a sua PEA e as demas regões.

Comentáros Recfe, ao contráro, tem uma taxa de analfabetsmo alta demas comparada a sua PEA e as demas regões. Fortaleza, apesar de ser um ponto afastado dos demas, mantém o padrão da maor parte dos pontos.

Gráfcos de lustração

Gráfcos de lustração

Gráfcos de lustração

Cudados na nterpretação Uma correlação alta (próxma de 1 ou -1) pode ndcar forte dependênca lnear entre as varáves. Nesse caso, os pontos no dagrama de dspersão espalham-se em torno de uma reta. Pode haver varáves cuja correlação é próxma de 1 (ou -1), mas, na verdade, não são dretamente relaconadas. (correlação espúra) Uma correlação zero ou próxma de zero ndca ausênca de lneardade, podendo sgnfcar ausênca de relação entre as varáves ou outro tpo de dependênca entre elas.

Exemplo 2 dados= read.table("http://www.dme.ufrj.br/marna/relquadratca.txt", header=t) cor(dados$x,dados$y) 0 Observe que exste relação de dependênca entre x e y, porém essa. relação NÃO é lnear.

Correlação: Cudados na nterpretação Uma correlação amostral entre duas varáves próxma de 1 ou -1 pode só ndcar que as varáves crescem no mesmo sentdo (ou em sentdos contráros), e não que, aumentos sucessvos em uma, acarretarão aumentos sucessvos (ou dmnuções sucessvas) na outra.

Reta de mínmos quadrados Quando as varáves em análse são altamente correlaconadas e de fato pode haver uma relação de causa e efeto entre elas, o problema de fazer prevsão do valor de uma delas dado o valor da outra varável pode ser resolvdo através de uma regressão lnear smples (ajuste pela reta de mínmos quadrados). Em geral, uma das varáves é consderada como varável que pode ser controlada de alguma forma varável explcatva (ndependente - predtora) e a outra, sobre a qual deseja-se fazer prevsões, é chamada varável resposta (dependente).

EXEMPLO 3: Fonte: http://lb.stat.cmu.edu/dasl/ Trabalharemos com uma base de dados sobre o hábto de fumar e mortaldade por câncer de pulmão.

Exemplo 3 (cont.) Descrção: Os dados sumaram um estudo entre homens dstrbuídos em 25 grupos classfcados por tpo de ocupação na Inglaterra. Dos índces são apresentados para cada grupo.

Exemplo 3: varáves índce de fumo: razão do número médo de cgarros fumados por da por homem no partcular grupo de ocupação sobre a méda global de cgarros fumados por da, calculada levando-se em contas todos os homens. (méda do grupo sobre méda global) índce de mortaldade: razão da taxa de mortes causadas por câncer de pulmão entre os homens de um partcular grupo de ocupação sobre a taxa global de mortes por câncer de pulmão, calculada levando-se em conta todos os homens. (taxa no grupo sobre taxa global) Número de observações: 25

Fumo versus câncer Nomes das varáves: 1. Grupo de ocupação: grupo 2. Índce de fumo: fumo (100 = base) fumo=100: número médo de cgarros por da para o grupo é gual ao número médo global de cgarros fumados por da. fumo>100 ndca grupo que fuma em méda mas que o geral; fumo<100, grupo que fuma em méda menos que o geral.

Fumo versus câncer 3. Índce de Mortaldade: morte (100 = base) morte=100, número médo de mortes por câncer de pulmão para o grupo é gual ao número médo global de mortes por câncer de pulmão. morte>100 ndca grupo com ncdênca de mortes por câncer de pulmão maor que o geral; morte<100, ncdênca menor que o geral. arquvo: fumo.txt em www.dme.ufrj.br/marna/

Fumo versus câncer Analse estes dados avalando se há relação entre estes índces. Construa o dagrama de dspersão e calcule a correlação.

ablne Para nserr as retas tracejadas em x=100 e em y=100 após ter construído o dagrama, use os comandos: ablne(h=100,lty=2) ablne(v=100,lty=2)

Indce de fumo versus mortaldade por câncer de pulmão A partr do dagrama de dspersão é possível perceber claramente uma correlação postva entre as duas varáves em análse. cor(dados$fumo,dados$morte) [1] 0.7162398 No contexto deste exemplo faz sentdo prever o índce de mortaldade por câncer de pulmão num partcular grupo, dado o índce de fumo do grupo.

Reta de mínmos quadrados O comando no R que calcula os coefcentes da reta de mínmos quadrados é lm(...), de lnear model. No caso específco deste exemplo podemos pedr reta=lm(dados$morte~dados$fumo)

Reta de mínmos quadrados Obtém-se Coeffcents: (Intercept) dados$fumo -2.885 1.088 É o coefcente angular da reta de mínmos quadrados É o coefcente lnear da reta de mínmos quadrados Modelo ajustado: Indce de morte=-2.885+1.088x(ndce de fumo)

Gráfco da reta obtda Para nserr o gráfco da reta obtda no ajuste de mínmos quadrados no dagrama de dspersão dos pontos, basta, após obter o dagrama de dspersão, pedr ablne(reta$coeffcents)

ponts Para nserr o ponto médo no gráfco use o comando: ponts(mean(dados$fumo),mean(dados$morte),pch= *,col= red,cex=2)

Comentáros Depos de proposto um modelo é fundamental realzar a etapa de valdação do modelo em que boa parte consste numa análse exploratóra detalhada dos resíduos do modelo. Apenas após a etapa de valdação e a escolha do modelo é que podemos partr para a etapa de prevsões.

Valores ajustados Após ajustar a reta, usando a função lm váras nformações fcam dsponíves, entre elas os valores ajustados da varável resposta pela reta obtda. reta$ftted (#usando reta=lm(dados$morte~dados$fumo fornece os valores ajustados)

Resíduos O resíduo do modelo é defndo pela dferença entre O valor observado da varável resposta e o valo Ajustado pelo modelo. Resíduos da reta de mínmos quadrados: reta$resduals round(reta$resduals,dgts=2) 1 2 3 4 5 6 7 8 9 10 11 3.15-30.11-1.36 28.66 31.73-7.04 0.17 14.74 11.18-20.04 7.92 12 13 14 15 16 17 18 19 20 21 22 18.78-27.48-22.92 23.99 22.26-20.06 4.24 5.82 3.69-12.73-11.08 23 24 25 14.13-19.77-17.89

Análse dos resíduos Ramo-e-folhas dos resíduos: > stem(round(reta$resduals,dgts=2)) -2 073000-0 83171 0 0344681459 2 2492 Também avalamos o hstograma, e o gráfco dos resíduos versus os valores ajustados.

Valores ajustados Valores ajustados da reta de mínmos quadrados: reta$ftted round(reta$ftted,dgts=2) 80.85 146.11 124.36 99.34 123.27 108.04 117.83 98.26 92.82 108.04 96.08 110.22 113.48 118.92 120.01 116.74 133.06 141.76 122.18 111.31 91.73 96.08 105.87 79.77 68.89

Crtéro de mínmos quadrados Como são obtdos os coefcentes da reta de mínmos quadrados? Nossos dados podem ser pensados como uma coleção bvarada: ( x, y ), ( x 1 2, y 2 ),...,( x n, y 1 n ) Fo consderado adequado o modelo x para explcar y.

Crtéro de mínmos quadrados Crtéro de Mínmos quadrados: escolha e de tal manera que seja mnmzada a soma de quadrados dos resíduos: n 1 r 2 n 1 ( y x ) 2

Crtéro de mínmos quadrados Solução: xx xy n n S S x x x x y y b 2 1 1 ) ( ) )( ( bx y a Coefcente de nclnação da reta Coefcente lnear da reta (ntercepto)

Resumo: lsta de novas funções cor: calcula a correlação; lm: ajusta a reta de mínmos quadrados; ablne: nsere uma reta num plot; ponts: nsere pontos(x,y) num plot; round(x,dgts=n); arredonda os valores em x para n casas decmas.