Imputação de dados faltantes em séries temporais de poluição atmosférica



Documentos relacionados
Modelagem de Processos Espaço-temporais

Impacte da Poluição Atmosférica por Partículas (PM 10 ) na Mortalidade dos Residentes no Concelho de Lisboa

AreS-Rio. Qualidade do Ar e Efeitos na Saúde da População do Município do Rio de Janeiro. Secretaria da Qualidade Ambiental nos Assentamentos Humanas

Eixo Temático ET Poluição do Ar

Efeito da estratégia DOTS e fatores associados ao óbito e ao abandono de tratamento em casos de TB residentes em Recife, PE

Modelagem da Venda de Revistas. Mônica Barros. Julho de

Implantação dos Processos Gerência de Projeto e Medição com Auxílio de Ferramenta Baseada em Planilhas Carlos Simões Claudia Lasmar Gleison Santos

Sistematização, desenvolvimento de tecnologia e análise dos dados do IIMR com fins de elaboração de um painel de informações para o VIGIAR

Projeto Supervisionado

PLANO DE ENSINO. Mestrado em Matemática - Área de Concentração em Estatística

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

COMENTÁRIO AFRM/RS 2012 ESTATÍSTICA Prof. Sérgio Altenfelder

NECESSIDADE DE CAPITAL DE GIRO E OS PRAZOS DE ROTAÇÃO Samuel Leite Castelo Universidade Estadual do Ceará - UECE

OUTLIERS E SOFTWARE DE ANÁLISE ES- TATÍSTICA

Simulação Transiente

DESENVOLVIMENTO DE UMA FUNÇÃO NO R PARA ANÁLISE DE TRILHA

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

Simulações em Aplicativos

MetrixND. especificações. MetrixND - Ferramenta de previsão de energia elétrica

"Strategies for dealing with Missing data in clinical trials: From design to Analysis

UNIVERSIDADE FEDERAL DE UBERLÂNDIA FACULDADE DE MATEMÁTICA 4 a LISTA DE EXERCÍCIOS GBQ12 Professor: Ednaldo Carvalho Guimarães AMOSTRAGEM

Módulo 4 PREVISÃO DE DEMANDA

5 A Utilização da Técnica do Espaço Nulo e dos Atributos Baseados na Escolha de Coeficientes de Autocorrelações

DESENVOLVIMENTO DE UMA FUNÇÃO NO R PARA ANÁLISE DE TRILHA RESUMO

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo

Metodologia de Gerenciamento de Risco de Mercado

5.1 Modelo de uma rede óptica com conversores de comprimento de onda

)HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR

Plano de Cargos e Salários

MAE Séries Temporais

2 Avaliação de desempenho de uma rede de telecomunicações

Avaliando o que foi Aprendido

CONTEÚDO Tempo Médio e Vida Média Residual Relações entre as Funções 1.7 Exercícios...

BC-0005 Bases Computacionais da Ciência. Modelagem e simulação

Matemática Financeira

Métodos Matemáticos para Gestão da Informação

ANÁLISE DA DISTRIBUIÇÃO TEMPORAL DE DADOS HORÁRIOS DE TEMPERATURA EM CURITIBA

2.1 Os projetos que demonstrarem resultados (quádrupla meta) serão compartilhados na Convenção Nacional.

Introdução à análise de dados longitudinais

Mestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015

INF Introdução a Interação Humano-Computador (IHC)

Distribuições de Probabilidade Distribuição Normal

Curso: Logística e Transportes Disciplina: Estatística Profa. Eliane Cabariti

O que medir? Por onde começar? Quando medir? Quem deve medir? Como medir?

PROGRAMA DO CURSO DE FORMAÇÃO ANÁLISE ESTATÍSTICA DE DADOS COM SPSS (ISSSP, )

W Projeto. Gerenciamento. Construindo a WBS e gerando o Cronograma. Autor: Antonio Augusto Camargos, PMP 1/12

MODIFICAÇÃO DO TESTE DE NORMALIDADE DE SHAPIRO-WILK MULTIVARIADO DO SOFTWARE ESTATÍSTICO R

Os efeitos positivos em saúde do transporte urbano sobre trilhos

Guia de qualidade de cores

A experiência Portuguesa na Incineradora de RH do Parque da Saúde de Lisboa

SISTEMÁTICA DE ACOMPANHAMENTO E AVALIAÇÃO DE DESEMPENHO

Inteligência de Enxame: PSO

Os juros podem ser capitalizados segundo dois regimes: simples ou compostos.

Análise de logs do sistema Agritempo por meio do log do PHPNuke e WebAlizer

A OPERAÇÃO DE CROSS-DOCKING

Teorema do Limite Central e Intervalo de Confiança

Planificação. Apreender conceitos sobre a lógica de programação. Aplicar instruções e sequências lógicas na resolução de problemas

Elementos de Estatística (EST001-B)

PRO FOR WINDOWS (FPW)

O método de Monte Carlo: algumas aplicações na Escola Básica

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

CARACTERIZAÇÃO CLIMÁTICA DA ZONA LESTE DE SÃO PAULO, UM EXEMPLO DE INTERAÇÃO ENTRE A EACH-USP E O BAIRRO JARDIM KERALUX

Copyright OSIsoft, LLC. 1

Exemplos: Análise de Valor Agregado (Ex_vagregado.SPRJ)

ESTUDO DO EFEITO DAS AÇÕES DE MARKETING SOBRE O FATURAMENTO DE UMA INSTITUIÇÃO DE SAÚDE DO SUL DE MINAS GERAIS UTLIZANDO TÉCNICAS DE SÉRIES TEMPORAIS

Diário Oficial da União Seção 1 DOU 02 de junho de 2003 [Página 51-52]

DIRETORIA DE PESQUISAS - DPE COORDENAÇÃO DE CONTAS NACIONAIS CONAC. Sistema de Contas Nacionais - Brasil Referência Nota Metodológica nº 18

SisDEA Home Windows Versão 1

PROPOSTA DE FORMAÇÃO FORMAÇÃO NÍVEL I

(b) Qual a probabilidade de ter sido transmitido um zero, sabendo que foi recebido um (1.0) zero?

MERCADO LIBERALIZADO GALP POWER

Referências internas são os artefatos usados para ajudar na elaboração do PT tais como:

Gerência de Projetos. Aula 07. Prof. Gladimir Ceroni Catarino

ORGANIZAÇÃO DESTINATÁRIOS

Poluição atmosférica e internações hospitalares por doenças respiratórias em crianças, adolescentes e idosos na cidade de Cubatão entre 1997 e 2004

MS877 PROJETO SUPERVISIONADO II Técnicas de Análise de Investimentos

Saúde do Idoso 1ª Pesquisa sobre a Saúde e Condições de Vida do Idoso na Cidade do Rio de Janeiro. Ano

SOLICITAÇÃO PARA APRESENTAÇÃO DE MANIFESTAÇÕES DE INTERESSE Nº 006/2012 SELEÇÃO DE CONSULTOR INDIVIDUAL

Quando a análise de Pontos de Função se torna um método ágil

Consulta Pública de Lâmina de Fundo. Consulta Pública de Lâmina de Fundo

Modelos bayesianos sem MCMC com aplicações na epidemiologia

UNIVERSIDADE FEDERAL DA BAHIA - UFBA

7Testes de hipótese. Prof. Dr. Paulo Picchetti M.Sc. Erick Y. Mizuno. H 0 : 2,5 peças / hora

NECESSIDADES DE PREVISÃO DA CADEIA DE SUPRIMENTOS. Mayara Condé Rocha Murça TRA-53 Logística e Transportes

Simulação Estocástica

MECANISMO DE ATRIBUIÇÃO DA CAPACIDADE NO ARMAZENAMENTO

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I

CURSO ON-LINE PROFESSOR GUILHERME NEVES

5. EXPERIÊNCIAS E ANÁLISE DOS RESULTADOS Os Programas de Avaliação

Controle de Qualidade de Laboratório

Método de Monte Carlo e ISO

METROLOGIA E ENSAIOS

2. Método de Monte Carlo

Regressão Linear Multivariada

MELHORAMENTO GENÉTICO DE PRECISÃO

Aluno: Matrícula: Turma:

CONTRIBUIÇÕES REFERENTES À AUDIÊNCIA PÚBLICA Nº043/2010

Ficha de Unidade Curricular (FUC) de Simulação Empresarial II-Marketing

1. OUTROS INDICADORES DEMOGRÁFICOS E DE SAÚDE

Levantamento, Análise e Gestão Requisitos. Aula 12

Transcrição:

Programa Ares-Rio Ar e Saúde Rio de Janeiro Instituto de Medicina Social Universidade do Estado do Rio de Janeiro Imputação de dados faltantes em séries temporais de poluição atmosférica Washington Junger Antonio Ponce de Leon Laboratório de Estatística Aplicada com ênfase em Dados Dependentes - LEADD VII Congresso Brasileiro de Epidemiologia Porto Alegre, 23 de setembro de 2008

Problema Motivação em epidemiologia ambiental: Considere um estudo ecológico. As concentrações de material particulado são monitoradas em vários pontos da cidade a cada hora e médias diárias são calculadas. Alguns monitores apresentam lacunas. A exposição é estimada como a média das concentrações diárias nos monitores. Dia Centro Jacarepaguá Nova Iguaçu 01/02/2001 37.4167 39.1250 02/02/2001 53.0417 39.0000 44.9583 03/02/2001 33.7917 04/02/2001 25.9167 31.2500 05/02/2001 27.3750 45.2500 06/02/2001 23.2917 30.7500 07/02/2001 45.9583 42.6667 08/02/2001 32.5833 29.5833 57.2083 Como estimar a exposição com o menor erro possível?

Procedimentos usuais Análise dos registros completos Imputação com a média incondicional Imputação com a mediana Imputação pelo vizinho mais próximo univariado Imputação com a média condicional

Algoritmo de imputação Baseado no algoritmo EM para a distribuição normal multivariada Seja x t (t=1,...,n) a t-ésima realização de um vetor aleatório X com distribuição normal multivariada de dimensão p com m elementos não observados. ( x ) 1,, x, x,, x T ( 1, t m 2 ) x = = x x ( + 1) t t tm tp t t Considere B janelas de com diferentes regimes de variância ao longo do tempo. O vetor média e a matriz de covariâncias em um instante de tempo t na janela b (b=1,...,b) são T µ % t µ % t1 = µ % t 2 Σ% b Σ% Σ% b11 b12 = Σ% b21 Σ% b22 Após imputar os dados com a média condicional e calcular a contribuição, o vetor média e matriz de covariâncias em uma iteração do algoritmo são dados por = = n b b % n b % = = µ % x % x n n t 1 bt b b t 1 bt b = = Σ % x x -µµ % % n T T b 1 bt bt n t b b b

Algoritmo de imputação

Componente temporal A cada iteração é preciso estimar o nível µ t da série temporal Modelo ARIMA(p,d,q) φ φ φ θ θ θ d xjt = 1xjt 1 + 2xjt 2 + L+ pxjt p + a jt 1a jt 1 2a jt 2 L qa jt q % K = E X x ( 1), x ( 2), µ jt jt j t j t Spline cúbica natural K 2 b '' ( ) { ( )} { } 2 j = k 1 t ν k + λ = a S g X g g dx ( jt ) µ = g x jt Modelo de regressão (GAM) ( ) µ = β + β Z + g Z jt 0 u u u v v v

Componente temporal Exemplo de ajuste do componente temporal usando ARIMA Imputed data for series Axis on the original scale 2.5 3.0 3.5 4.0 4.5 observed imputed level 0 100 200 300 Index

Componente temporal Exemplo de ajuste do componente temporal usando spline Imputed data for series Axis on the original scale 2.5 3.0 3.5 4.0 4.5 observed imputed level 0 100 200 300 Index

Componente temporal Exemplo de ajuste do componente temporal usando GAM Imputed data for series Axis on the original scale 2.5 3.0 3.5 4.0 4.5 observed imputed level 0 100 200 300 Index

Estudo de simulação Para avaliar a efetividade do método, este foi submetido ao seguinte desenho de simulação Um conjunto de dados de concentrações de PM10 da cidade de São Paulo sem variáveis faltantes composto de 10 estações e 366 observações Modelo de regressão Poisson semi-paramétrico para internação de crianças até 5 anos de idade por doenças respiratórias, controlando por tendência, sazonalidade, dias da semana, feriados temperatura e umidade O risco relativo (percentual) estimado para a média de PM10 foi 0,433% com IC de 95% igual a (0,224;0,643). O coeficiente estimado foi 0,004321 (0,001063) Para avaliar a validade da imputação, a estratégia da simulação foi gerar 100 padrões de dados incompletos de diversos tamanhos e configurações na matriz de concentrações de poluentes usando os mecanismos MCAR, MAR e MNAR; imputar os valores faltantes, estimar o efeitos com os dados imputados e calcular medidas sumárias das estimativas Para avaliar a performance, apenas uma replicação foi usada e os seguintes indicadores calculados: RMSD, MAD, BIAS, PV, r e d2 Também foi avaliado o impacto de um fator de penalização pela informação perdida sobre os coeficientes do modelo de associação

Resultados Validade: MAR CD IM MD VP CM EM EM Spline EM ARIMA EM MAG Spline ARIMA MAG MAR 5% 10% 20% 30% 40% 0,432 0,445 0,445 0,436 0,433 0,433 0,433 0,433 0,433 0,432 0,432 0,432 (0,006) (0,012) (0,012) (0,008) (0,005) (0,004) (0,004) (0,005) (0,004) (0,004) (0,006) (0,004) 0,431 0,463 0,463 0,439 0,432 0,435 0,433 0,435 0,433 0,432 0,435 0,432 (0,010) (0,017) (0,017) (0,010) (0,009) (0,007) (0,006) (0,009) (0,007) (0,007) (0,012) (0,007) 0,429 0,490 0,490 0,441 0,430 0,436 0,434 0,438 0,433 0,433 0,437 0,433 (0,015) (0,028) (0,028) (0,017) (0,014) (0,009) (0,009) (0,013) (0,009) (0,010) (0,016) (0,010) 0,422 0,518 0,519 0,447 0,422 0,438 0,434 0,437 0,433 0,434 0,436 0,434 (0,018) (0,040) (0,041) (0,021) (0,018) (0,013) (0,012) (0,020) (0,011) (0,013) (0,022) (0,012) 0,419 0,551 0,552 0,454 0,419 0,443 0,435 0,439 0,433 0,435 0,437 0,433 (0,022) (0,047) (0,048) (0,025) (0,022) (0,015) (0,015) (0,024) (0,017) (0,016) (0,028) (0,018)

Resultados Performance : MAR Ind. IM MD VP CM EM EM Spline EM ARIMA EM MAG Spline ARIMA MAG MAR 5% 40% RMSD 0,421 0,416 0,344 0,124 0,150 0,138 0,155 0,155 0,133 0,159 0,159 MAD 0,346 0,342 0,256 0,076 0,117 0,108 0,119 0,119 0,103 0,117 0,117 BIAS 0,286 0,281 0,059-0,008 0,001-0,010 0,006 0,006-0,011 0,005 0,005 PV 0,094 0,114 1,633 0,783 0,804 0,961 0,988 0,988 0,910 0,979 0,979 r 0,499 0,504 0,660 0,885 0,903 0,920 0,900 0,900 0,925 0,895 0,895 d2 0,526 0,534 0,790 0,937 0,946 0,959 0,948 0,948 0,960 0,945 0,945 RMSD 0,517 0,521 0,403 0,039 0,206 0,186 0,191 0,191 0,181 0,197 0,197 MAD 0,422 0,425 0,304 0,007 0,156 0,140 0,143 0,143 0,136 0,150 0,150 BIAS 0,383 0,390 0,136-0,002 0,001-0,002 0,019 0,019 0,004 0,019 0,019 PV 0,077 0,095 1,658 0,770 0,694 0,827 0,876 0,876 0,852 0,927 0,927 r 0,416 0,419 0,640 0,889 0,839 0,871 0,866 0,866 0,879 0,860 0,860 d2 0,500 0,503 0,767 0,971 0,906 0,930 0,928 0,928 0,935 0,925 0,925

Resultados Penalização: coeficiente e erro-padrão sob MAR com pesos Valor de referência: 0,004321 (0,001063) w = 1 0.5( m p) t t % Penalização 5% 10% 20% 30% 40% não sim não sim não sim não sim não sim Estatística EM Spline EM ARIMA EM MAG Spline ARIMA MAG β 0,004316 0,004248 0,004330 0,004295 0,004261 0,004314 EP(β) 0,001061 0,001060 0,001062 0,001061 0,001058 0,001061 β 0,004301 0,004236 0,004313 0,004281 0,004247 0,004299 EP(β) 0,001066 0,001066 0,001067 0,001066 0,001063 0,001066 β 0,004324 0,004202 0,004321 0,004307 0,004238 0,004305 EP(β) 0,001061 0,001063 0,001061 0,001063 0,001071 0,001061 β 0,004343 0,004229 0,004340 0,004328 0,004264 0,004325 EP(β) 0,001077 0,001079 0,001076 0,001079 0,001086 0,001077 β 0,004334 0,004137 0,004307 0,004285 0,004115 0,004277 EP(β) 0,001057 0,001058 0,001055 0,001057 0,001059 0,001054 β 0,004340 0,004162 0,004314 0,004295 0,004146 0,004287 EP(β) 0,001088 0,001089 0,001086 0,001088 0,001091 0,001085 β 0,004362 0,004103 0,004394 0,004335 0,004097 0,004398 EP(β) 0,001064 0,001056 0,001063 0,001063 0,001066 0,001064 β 0,004352 0,004124 0,004375 0,004326 0,004118 0,004376 EP(β) 0,001113 0,001107 0,001112 0,001112 0,001117 0,001113 β 0,004436 0,004050 0,004473 0,004426 0,004006 0,004473 EP(β) 0,001074 0,001050 0,001074 0,001073 0,001031 0,001074 β 0,004466 0,004126 0,004494 0,004456 0,004091 0,004492 EP(β) 0,001137 0,001118 0,001136 0,001136 0,001103 0,001136

Considerações Apesar de ser desenvolvido sob normalidade, o método poder ser utilizado em qualquer problema que possa ser formulado como um problema de estimação de parâmetros de uma normal multivariada O principal objetivo do algoritmo é realizar imputação com dependência temporal, entretanto pode ser utilizado com dados transversais O uso de um fator de penalização reduz a superestimação da precisão dos estimadores O algoritmo está implementado numa biblioteca para o R chamada mtsdi de fácil utilização e páginas de ajuda É a metodologia de imputação de dados do Projeto ESCALA A imputação de dados não deve ser vista como uma forma de fabricar dados que não existem, e sim permitir que se faça inferências usando o máximo possível da informação contida nos dados

www.ims.uerj.br/ares-rio wjunger@ims.uerj.br Programa Ares-Rio Ar e Saúde - Rio de Janeiro Instituto de Medicina Social Universidade do Estado do Rio de Janeiro