REGRESSÃO NÃO PARAMÉTRICA



Documentos relacionados
Regressão Logística. Daniel Araújo Melo - dam2@cin.ufpe.br. Graduação

Distribuição Gaussiana. Modelo Probabilístico para Variáveis Contínuas

Interpolação. Interpolação

PP 301 Engenharia de Reservatórios I 11/05/2011

Cálculo Numérico Faculdade de Engenharia, Arquiteturas e Urbanismo FEAU

P. P. G. em Agricultura de Precisão DPADP0803: Geoestatística (Prof. Dr. Elódio Sebem)

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.

Especialização em Engenharia Clínica

PROBABILIDADE. Aula 5

Técnicas Multivariadas em Saúde. Comparações de Médias Multivariadas. Métodos Multivariados em Saúde Roteiro. Testes de Significância

Testedegeradoresde. Parte X. 38 Testes de Ajuste à Distribuição Teste Chi-Quadrado

4. Metodologia. Capítulo 4 - Metodologia

ESTEREOSCOPIA INTRODUÇÃO. Conversão de um par de imagens (a)-(b) em um mapa de profundidade (c)

O mercado de bens CAPÍTULO 3. Olivier Blanchard Pearson Education Pearson Education Macroeconomia, 4/e Olivier Blanchard

Analisador de Espectros

Ferramentas da Qualidade. Professor: Leandro Zvirtes UDESC/CCT

Caracterização do território

AULAS 14, 15 E 16 Análise de Regressão Múltipla: Problemas Adicionais

5 Considerações Finais e Recomendações

Poluição Ambiental e Saúde Infantil: a Vulnerabilidade do período Intra-Uterino

Exemplo Regressão Linear Simples

4 Avaliação Experimental

Trabalho Computacional. A(h) = V h + 2 V π h, (1)

Faculdade Sagrada Família

Caracterização do território

Verificação e Validação em CFD

PESQUISA & DESENVOLVIMENTO

Análise de Sobrevivência Aplicada à Saúde

Introdução. Capítulo. 1.1 Considerações Iniciais

de Piracicaba-SP: uma abordagem comparativa por meio de modelos probabilísticos

PESQUISA OPERACIONAL E AVALIAÇÃO DE CUSTOS COMPLETOS: APLICAÇÕES EM PROBLEMAS AMBIENTAIS

Apresentação Caule e Folha. Exemplo

5 A Metodologia de Estudo de Eventos

Modelos Pioneiros de Aprendizado

UNIÃO EDUCACIONAL DO NORTE UNINORTE AUTOR (ES) AUTOR (ES) TÍTULO DO PROJETO

Regressão Logística. Propriedades

MÓDULO 1. I - Estatística Básica

Mesa redonda: Cristiano Ferraz

Caracterização do território

COMPARAÇÃO ECONÔMICA ENTRE O TRANSPORTE DE GÁS E LINHA DE TRANSMISSÃO

Caracterização do território

Anti-Slippery Mouraria. Relatório

Caracterização do território

Geoestatística Análise de dados em outro software Gamma Design GS+

OUTLIERS E SOFTWARE DE ANÁLISE ES- TATÍSTICA

Datas Importantes 2013/01

Encontro de Ensino, Pesquisa e Extensão, Presidente Prudente, 17 a 20 de outubro, RESUMOS SIMPLES...36 RESUMO DE PROJETOS...

DINÂMICA DOS FLUIDOS COMPUTACIONAL. CFD = Computational Fluid Dynamics

Análise de Sensibilidade

Segmentação de Imagens

25 a 30 de novembro de 2013

ANEXO L RESUMO ESPECIFICAÇÕES INCRA

Processamento de Imagens COS756 / COC603

CAPÍTULO 2 FUNÇÕES 1. INTRODUÇÃO. y = 0,80.x. 2. DEFINIÇÃO DE FUNÇÃO DE A EM B ( f: A B) 4. GRÁFICO DE UMA FUNÇÃO

Análise de regressão linear simples. Departamento de Matemática Escola Superior de Tecnologia de Viseu

Mercado e a concorrência

5 Um simulador estocástico para o fluxo de caixa

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL INSTITUTO DE MATEMÁTICA PROGRAMA DE PÓS-GRADUAÇÃO EM ENSINO DE MATEMÁTICA TÓPICOS DE MATEMÁTICA APLICADA B

Revisão: Noções básicas de estatística aplicada a avaliações de imóveis

Equações Diferenciais Ordinárias

Universidade Federal do Rio Grande do Sul Escola de Engenharia Departamento de Engenharia Elétrica ENG04037 Sistemas de Controle Digitais

Como estimar peso vivo de novilhas quando a balança não está disponível? Métodos indiretos: fita torácica e hipômetro

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

COS767 - Modelagem e Análise Aula 2 - Simulação. Algoritmo para simular uma fila Medidas de interesse

Análise de Regressão Linear Simples e Múltipla

OANAFAS é um programa computacional

EXPERÊNCIA 4 - MODULAÇÃO EM FREQUÊNCIA

ESPAÇOS MUNIDOS DE PRODUTO INTERNO

Testes (Não) Paramétricos

Processos Estocásticos

MATEMÁTICA ENEM 2009 PROF. MARCELO CÓSER

Redes Neurais Artificiais na Engenharia Nuclear 2 Aula-1 Ano: 2005

A metodologia ARIMA (Auto-regressivo-Integrado-Média-Móvel),

Estudaremos métodos numéricos para resolução de sistemas lineares com n equações e n incógnitas. Estes podem ser:

Influência do Encaminhamento de Mensagens na Topologia de Redes Sociais

RNAs, Classificação de Padrões e Motivação Geométrica. Conteúdo

4 Resultados e Discussões

Algoritmos de Agrupamento - Aprendizado Não Supervisionado. Fabrício Jailson Barth

Princípios Fundamentais

AVALIAÇÃO DE DESEMPENHO

5 Cap 8 Análise de Resíduos. Outline. 2 Cap 2 O tempo. 3 Cap 3 Funções de Sobrevida. Carvalho MS (2009) Sobrevida 1 / 22

Nota Técnica 113/2007 SRD/SRE/ANEEL Metodologia para Projeção de Investimentos para o Cálculo do Fator X Contribuição da Audiência Publica 052/2007

Modelos de Equações simultâneas

Jogos Olímpicos de Verão - Londres 2012

Considerações sobre redimensionamento de motores elétricos de indução

A DEMANDA POR SAÚDE PÚBLICA EM GOIÁS

Função bayesiana em R para o problema de Behrens-Fisher multivariado

Componentes Básicos de um escritório para SIG

OUTLIERS Conceitos básicos

AULA 1 INTRODUÇÃO - ENGENHARIA DE SOFTWARE. Prof. Msc. Hélio Esperidião

Operações Pontuais. Guillermo Cámara-Chávez

Toleranciamento Geométrico João Manuel R. S. Tavares

Documentação da Pesquisa de Satisfação Sistemas de TI 2010

4. Tarefa 16 Introdução ao Ruído. Objetivo: Método: Capacitações: Módulo Necessário: Análise de PCM e de links

Introdução aos Modelos Lineares em Ecologia

Linear Solver Program - Manual do Usuário

R é o conjunto dos reais; f : A B, significa que f é definida no conjunto A (domínio - domain) e assume valores em B (contradomínio range).

Imagem e Gráficos. vetorial ou raster?

Medição de vazão. Capítulo

Redes Neurais Artificiais: Funções de Base Radial

Transcrição:

REGRESSÃO NÃO PARAMÉTRICA TX 753- Métodos probabilísticos em Engenharia Ambiental Cybelli Barbosa Thiago Brandão

REGRESSÃO PARAMÉTRICA Relação funcional entre as variáveis explicativa e resposta é supostamente conhecida, Podem existir parâmetros com valores desconhecidos, mas estes podem ser estimados, Parâmetros livres geralmente possuem interpretação física, Objetivo principal é estimar o valor dos parâmetros, Os modelos que não são puramente paramétricos são denominados não-paramétricos ou semi-paramétricos. VON ZUBEN

REGRESSÃO PARAMÉTRICA Exemplo geral: yi = f(, xi) + i onde é o vetor de parâmetros a ser estimado, x é o vetor de predição, o erro,, é assumido normal e independentemente distribuído, com média zero e variância desconhecida. FOX

REGRESSÃO NÃO PARAMÉTRICA Não há conhecimento a priori a respeito da forma da função, e esta pode adquirir um conjunto amplo de formas, Objetivo principal não é estimar o valor dos parâmetros, mas reduzir as possibilidades para a forma da função, A maioria dos métodos de regressão não paramétrica assume que f é uma função suave e contínua, Estimadores podem não possuir interpretação física. VON ZUBEN

REGRESSÃO NÃO PARAMÉTRICA Exemplo geral: yi = f(xi) + i A função f é menos especificada, pela falta de dados a priori, A aproximação não paramétrica é mais flexível pois determina f a partir de uma família de funções. Um caso especial importante do modelo geral é regressão não paramétrica simples, onde existe apenas um preditor: xi, Dificuldade: ajustar e exibir o modelo de regressão não paramétrica geral quando existem muitos preditores. FOX

EXEMPLO: FARAWAY Utilização de três conjuntos de dados: Exemplo A (simulado): f(x)=sin³(2 x³) Exemplo B (simulado): f(x)=0 Dados reais Old Faithful: tempo de espera entre as erupções e a duração da erupção do gêiser Old Faithful em Yellowstone National Park, Wyoming, EUA. FARAWAY

Método do Núcleo (Kernel)

>require (faraway) # dados do exemplo A (simulado): f(x)=sin³(2*pi*x³) >data(exa) >plot (y ~ x, exa, main="exemplo A", pch=".") >lines (m ~ x, exa) # dados do exemplo B (simulado): f(x)=0 >data(exb) >plot (y ~ x, exb, main="exemplo B", pch=".") >lines (m ~ x, exb) # Dados reais Old Faithful: # eruptions: duração da erupção em minutos. # waiting: tempo de espera até a próxima erupção, em minutos. >data(faithful) >plot (waiting ~ eruptions, faithful, main="old Faithful", pch=".")

ESTIMADORES KERNEL (janela móvel) Geral: : largura da banda ou parâmetro de alisamento, controla a suavidade da curva ajustada. A melhor escolha de fornece: MSE: mean squared error Nadaraya-Watson: utilizado quando o espaçamento da variável explicativa é bastante desigual (intervalos heterogêneos em x). Epanechnikov Kernel:

Exemplo do estimador Kernel Nadaraya-Watson com 3 diferentes larguras de banda : # Estimador Kernel: # lambda = 0.1: plot(waiting ~ eruptions, faithful, main="bandwidth=0.1", pch=".") lines(ksmooth(faithful$eruptions, faithful$waiting, "normal", 0.1)) # lambda = 0.5: plot(waiting ~ eruptions, faithful, main="bandwidth=0.5", pch=".") lines(ksmooth(faithful$eruptions, faithful$waiting, "normal", 0.5)) # lambda = 2: plot(waiting ~ eruptions, faithful, main="bandwidth=2", pch=".") lines(ksmooth(faithful$eruptions, faithful$waiting, "normal", 2))

A figura central (bandwidth=0.5) é a melhor escolha entre as três opções.

pode ser escolhido iterativamente utilizando este método subjetivo, Métodos automáticos de seleção da "quantidade de suavização" também são utilizados, Método de validação cruzada (CV) é amplamente utilizado, porém tem um alto custo computacional, Validação cruzada generalizada (GCV) é uma aproximação de CV, Utilização de métodos automáticos com cautela.

## Validação cruzada: # Old Faithful >library (sm) # utiliza o Kernel Gaussiano onde a suavização é o desvio padrão do Kernel >hm <- hcv(faithful$eruptions, faithful$waiting, display="lines") >sm.regression(faithful$eruptions, faithful$waiting, h=hm, xlab="eruptions", ylab="waiting") Critério de validação cruzada como uma função da suavidade, o mínimo ocorre em 0.424. Estimador kernel com o valor estimado de suavização.

# Ex A >hm <- hcv(exa$x, exa$y, display="lines") >sm.regression(exa$x, exa$y, h=hm, xlab="x", ylab="y") Validação cruzada para exemplo A, mínimo ocorre em h=0.022.

# Ex B >hm <- hcv(exb$x, exb$y, display="lines") hcv: boundary of search area reached. Try readjusting hstart and hend. hstart: 0.01412223 hend : 0.2824446 h cv [1,] 0.01412223 171.4676 [2,] 0.02166530 190.9929 [3,] 0.03323733 219.8658 [4,] 0.05099029 242.9889 [5,] 0.07822560 258.1320 [6,] 0.12000804 272.2397 [7,] 0.18410763 284.3874 [8,] 0.28244455 288.4751 Erro em hcv(exb$x, exb$y, display = "lines") : >sm.regression(exb$x, exb$y, h=0.005)

# Ex B: largura da banda hstart: 0.01412223 hend : 0.2824446 h=0.141 h=0.180 h=0.220 h=0.260 h=0.282 h=0.500

Método das splines

## Suavização das splines >plot (waiting ~ eruptions, faithful, pch=".") >lines(smooth.spline(faithful$eruptions, faithful$waiting)) >plot (y ~ x, exa, pch=".") >lines(exa$x, exa$m) >lines(smooth.spline(exa$x, exa$y), lty=2) >plot (y ~ x, exb, pch=".") >lines(exb$x, exb$m) >lines(smooth.spline(exb$x, exb$y), lty=2) Função cúbica atende ao requisito de continuidade e suavidade.

SPLINES DE SUAVIZAÇÃO: Ajuste melhorado da função, Escolha automática pode ser perigosa (exemplo B: interpolação dos dados). SPLINES DE REGRESSÃO: Utiliza uma quantidade de nós menor que o tamanho da amostra, Número de nós (ou janelas ) controla a quantidade de suavização, anteriormente controlada pelo λ. Método não-paramétrico fornece a liberdade de escolha do número de nós ( janelas ).

## Splines de regressão >rhs <- function (x,c) ifelse (x > c, x - c, 0) >plot (rhs) >curve (rhs(x,0.5), 0, 1) >knots <- 0:9/10; knots >dm <- outer (exa$x, knots, rhs) >matplot (exa$x, dm, type="l", col=1)

# ajuste de regressão >g <- lm(exa$y ~ dm) >plot (y ~ x, exa, pch=".", xlab="x", ylab="y") >lines (exa$x, predict(g)) # adensamento dos nós >newknots <- c(0, 0.5, 0.6, 0.65, 0.7, 0.75, 0.8, 0.85, 0.9, 0.95) >dmn <- outer(exa$x, newknots, rhs) >gn <- lm(exa$y ~ dmn) >plot (y ~ x, exa, pch=".", xlab="x", ylab="y") >lines (exa$x, predict(gn)) Só é aplicado quando a curvatura original é conhecida!

#Ajuste mais fino: >library (splines) >sm1 <- lm(y ~ bs(x,12), exa) >plot (y ~ x, exa, pch=".") >lines(m ~ x, exa) >lines(predict(sm1) ~ x, exa, lty=2) Poderia ser melhorado incluindo nós na região de maior curvatura e menos na região mais plana, ou seja, alterando a largura da janela em função da distribuição dos dados.

Método dos polinômios locais (local polynomials)

#Polinômios locais: >plot (waiting ~ eruptions, faithful, pch=".") >f <- loess(waiting ~ eruptions, faithful) >i <- order (faithful$eruptions) >lines(f$x[i], f$fitted[i]) >plot(y ~ x, exa, pch=".") >lines(exa$x, exa$m, lty=1) >f <- loess(y ~ x, exa) >lines(f$x, f$fitted, lty=2) >f <- loess(y ~ x, exa, span=0.22) >lines(f$x, f$fitted, lty=5) >plot (y ~ x, exb, pch=".") >f <- loess(y ~ x, exb) >lines(f$x, f$fitted, lty=2) >f <- loess(y ~ x, exb, span=1) >lines(f$x, f$fitted, lty=5) >lines(exb$x, exb$m)

WAVELETS: OUTROS MÉTODOS Utilização de polinômios ortogonais e bases de Fourier, Propriedade de multirresolução, Alteração da largura da janela de acordo com a oscilação dos dados.

NEAREST NEIGHBOR: OUTROS MÉTODOS O comprimento da janela varia de forma a comportar a mesma quantidade de pontos. VARIABLE BANDWIDTH: Bandas menores nas regiões de alta variabilidade e bandas mais largas quando a função é mais suave, Requer conhecimento a priori da suavidade da função relativa a todo o conjunto de dados. RUNNING MEDIANS: Utilizado para conjunto de dados com muitos outliers, Métodos baseados em médias locais são muito afetados por dados discrepantes, nesse contexto a utilização de medianas é uma boa alternativa, Produz ajuste visual rústico.

COMPARAÇÃO DE MÉTODOS CASO UNIVARIADO Dados homogêneos e pouco ruído: interpolação regressão linear simples Ruído moderado: métodos não paramétricos (sinal suficiente para justificar um ajuste flexível) Muito ruído: preferência para métodos paramétricos (não há sinal suficiente para justificar modelo mais complexo)

PREDITORES MULTIVARIADOS Muitos dos métodos são estendidos para dimensões maiores, Ajustes não-paramétricos são mais complexos, Não costuma ser aplicado para mais de dois preditores (visualização não é possível), Maldição da dimensionalidade: tamanho da janela suficiente para capturar pontos para a média local.

UTILIZAÇÕES DE MODELO DE REGRESSÃO NÃO-PARAMÉTRICA E SEMI-PARAMÉTRICA

MORTALIDADE INFANTIL EM PORTO ALEGRE Variáveis: idade e grau de instrução da mãe, tipo de gravidez e parto, localização da residência, peso ao nascer, semanas gestacionais e sexo de crianças que nasceram durante o ano de 1998, no Município de Porto Alegre, e que morreram antes de completarem o primeiro ano de vida, Abordagem semiparamétrica, ou abordagem de Modelos Aditivos Generalizados (GAM), Estimação espacial do risco.

ECONOMETRIA Métodos de Econometria Não-Paramétrica. Relação entre a esperança de vida ao nascer e as condições sócio-econômicas dos municípios nordestinos a partir de variáveis como renda per capita, proporção de domicílios com água canalizada e proporção de domicílios com acesso a rede de esgotos.

REFERENCIAS Faraway, J. J. Extending the linear model with R: Generalized linear, mixed effects and nonparametric regression models. Taylor & Francis Group, LLC: 2006. Fox, J. Nonparametric Regression - Appendix to An R and S-PLUS Companion to Applied Regression. 2002. Shimakura, S. E.; et al. Distribuição espacial do risco: modelagem da mortalidade infantil em Porto Alegre, Rio Grande do Sul, Brasil in Cad. Saude Publica, 1251-1261, Rio de Janeiro, set-out, 2001. Simonassi, A. G. Econometria Não Paramétrica e Expectativa e de Vida nos Municípios do Nordeste: Uma Aplicação do Estimador de Nadaraya-Watson. FGV. Disponível em: <http://www.bnb.gov.br/content/aplicacao/etene/anais/docs/mesa9_texto3.pdf> Von Zuben, F. Regressão Paramétrica e Não-Paramétrica. DCA/FEEC/Unicamp. Notas de aula. Disponível em: <ftp://ftp.dca.fee.unicamp.br/pub/docs/vonzuben/ia353/aula13.pdf>