FRANCINILTON ARRUDA DA SILVA

Tamanho: px
Começar a partir da página:

Download "FRANCINILTON ARRUDA DA SILVA"

Transcrição

1 UNIVERSIDADE FEDERAL DO CEARÁ a CENTRO DE CIÊNCIAS DEPARTAMENTO DE ESTATÍSTICA E MATEMÁTICA APLICADA PROGRAMA DE PÓS-GRADUAÇÃO EM MODELAGEM E MÉTODOS QUANTITATIVOS FRANCINILTON ARRUDA DA SILVA MODELOS DE SUPERFÍCIE DE RESPOSTA PARA DADOS DE CONTAGEM COM MEDIDAS REPETIDAS FORTALEZA 2018

2 FRANCINILTON ARRUDA DA SILVA MODELOS DE SUPERFÍCIE DE RESPOSTA PARA DADOS DE CONTAGEM COM MEDIDAS REPETIDAS Dissertação apresentada ao Programa de Pós-Graduação em Modelagem e Métodos Quantitativos do Departamento de Estatística e Matemática Aplicada da Universidade Federal do Ceará como parte dos requisitos necessários para a obtenção do título de mestre em Modelagem e Métodos Quantitativos. Área de concentração: Modelagem e Métodos Quantitativos. Orientador(a): Profa. Dra. Silvia Maria de Freitas FORTALEZA 2018

3 Dados Internacionais de Catalogação na Publicação Universidade Federal do Ceará Biblioteca Universitária Gerada automaticamente pelo módulo Catalog, mediante os dados fornecidos pelo(a) autor(a) S58m Silva, Francinilton Arruda da. Modelos de superfície de resposta para dados de contagem com medidas repetidas / Francinilton Arruda da Silva f. : il. color. Dissertação (mestrado) Universidade Federal do Ceará, Centro de Ciências, Programa de Pós-Graduação em Modelagem e Métodos Quantitativos, Fortaleza, Orientação: Profa. Dra. Silvia Maria de Freitas. 1. Equações de estimação generalizadas. 2. Distribuição Poisson. 3. Modelos lineares generalizados. 4. Bootstrap. 5. Comparações de métodos. I. Título. CDD 510

4 FRANCINILTON ARRUDA DA SILVA MODELOS DE SUPERFÍCIE DE RESPOSTA PARA DADOS DE CONTAGEM COM MEDIDAS REPETIDAS Aprovado em: 14 / 09 / Dissertação apresentada ao Programa de Pós- Graduação em Modelagem e Métodos Quantitativos do Departamento de Estatística e Matemática Aplicada da Universidade Federal do Ceará como parte dos requisitos necessários para a obtenção do título de mestre em Modelagem e Métodos Quantitativos. Área de concentração: Modelagem e Métodos Quantitativos. BANCA EXAMINADORA Prof ạ Dra. Silvia Maria de Freitas (Orientadora) Universidade Federal do Ceará (UFC) Prof. Dr. Juvêncio Santos Nobre (Examinador Interno) Universidade Federal do Ceará (UFC) Prof. Dr. Idemauro Antonio Rodrigues de Lara (Examinador Externo) Escola Superior de Agricultura Luiz de Queiroz - ESALQ/USP

5 1 A Deus. À minha família.

6 AGRADECIMENTOS Meus agradecimentos são a todos os que me apoiaram e me ajudaram durante todo este percurso do mestrado, em especial: A Deus, em nome do seu Filho Jesus Cristo, pois sem Ele não teria conseguido superar muitos problemas que surgiram, bem como concluir este trabalho. À minha orientadora, Silvia Maria de Freitas, pela orientação e apoio dado no desenvolvimento deste trabalho. Ao professor Juvêncio Santos Nobre pela sua colaboração na pesquisa. me deram. Aos meus pais José e Francisca pelo cuidado, educação e carinho que sempre À minha esposa Cleine, pela compreensão, paciência e por está ao meu lado principalmente nos momentos difíceis. Ao meu lho Samuel, por compreender minhas limitações durante todo o período do mestrado. Ao professor Luiz Drude de Lacerda, Diretor Cientíco da Funcap, pelo grande apoio dado no âmbito do meu trabalho. Aos meus colegas de mestrado pelos momentos de superação conjunta nas disciplinas, em que tive a oportunidade de aprender bastante.

7 RESUMO A Metodologia de Superfície de Resposta (MSR) tem por objetivo a determinação de níveis de fatores (quantitativos) que otimizem uma resposta quantitativa de interesse, para assim obter as coordenadas do ponto estacionário (mínimo ou máximo) do modelo, identicando as condições ótimas do mesmo. Os modelos são ajustados, geralmente, por meio de um modelo linear de segunda ordem, baseado em uma resposta contínua (com distribuição Normal), sendo todo o procedimento de estimação baseado no modelo clássico de regressão. Na ausência dessa premissa, o que ocorre quando a resposta for caracterizada por dados de contagem, faz-se uso dos métodos de transformação na resposta, o que pode acarretar problemas na precisão da estimativa pontual do ponto estacionário. Em geral, dados de contagem são modelados usando-se a distribuição de Poisson associada à modelos de regressão, caso particular dos Modelos Lineares Generalizados (MLGs). Além disso, existem situações em que os dados são tomados ao longo do tempo, apresentando uma estrutura longitudinal. Neste caso, é considerada a existência de correlação na mesma unidade experimental ao longo do tempo e, em 1986, Liang e Zeger propuseram as Equações de Estimação Generalizadas (EEGs), como extensão dos MLGs, para analisar dados longitudinais. A proposta deste trabalho descreve a MSR para dados de contagem longitudinais, por meio das EEGs, estudando suas propriedades, estimação e inferências. É realizado um estudo da precisão do ponto estacionário por meio da estimação pontual e intervalar deste, utilizando-se os métodos: inversa da função de ligação, método delta e o método do bootstrap residual, comparando o impacto dessas abordagens com à da resposta com distribuição Normal. Para tanto foram utilizados estudos de conjuntos de dados simulados. Palavras-chave: Bootstrap. Comparações de Métodos. Distribuição Poisson. Equações de Estimação Generalizadas. Modelos Lineares Generalizados.

8 ABSTRACT The Response Surface Methodology (RSM) aims to determine the levels of factors (quantitative) that optimize a quantitative response of interest, in order to obtain the coordinates of the stationary point (minimum or maximum) of the model, identifying the optimum conditions of the same. The models are usually adjusted by means of a second-order linear model, based on a continuous response (with Normal distribution), and the entire estimation procedure is based on the classical regression model. In the absence of this premise, which occurs when the response is characterized by counting data, it is used the transformation methods in the response, which can cause problems in the accuracy of the point estimate of the stationary point. In general, counting data are modeled using the Poisson distribution associated with regression models, a particular case of Generalized Linear Models (GLMs). In addition, there are situations in which data are taken over time, presenting a longitudinal structure. In this case, it is considered the existence of correlation in the same experimental unit over time and, in 1986, Liang and Zeger proposed Generalized Estimation Equations (GEEs), as an extension of the GLMs, to analyze longitudinal data. The proposal of this work describes the RSM for longitudinal counting data, through the GEEs, studying their properties, estimation and inferences. A study of the stationary point precision is carried out by means of the point and interval estimation of the stationary point, using the following methods: inverse binding function, delta method and residual bootstrap method, comparing the impact of these approaches with that of the distribution response Normal. For that, we used simulated data sets. Keywords: Bootstrap. Generalized Estimating Equations. Generalized Linear Models. Method Comparisons. Poisson distribution.

9 LISTA DE FIGURAS Figura 1 Superfície de resposta e gráco de contorno do valor esperado do rendimento (ŷ) em função da temperatura (x 1 ) e pressão (x 2 ) Figura 2 Delineamento composto central para k = 2 e k = Figura 3 Forma canonica do modelo de segunda ordem Figura 4 Grácos Boxplot por tempo (Y 1, Y 2 e Y 3 ) do delineamento composto central de 12 pontos Figura 5 Superfícies de resposta na escala do preditor linear ˆη referentes aos modelos de regressão Poisson e Normal, ajustados por meio do estimador naive Figura 6 Superfícies de resposta na escala do preditor linear ˆη referentes aos modelos de regressão Poisson e Normal, ajustados por meio do estimador robusto Figura 7 Grácos de probabilidade meio-normal com envelopes simulados dos modelos de regressão Poisson e Normal com base no estimador naive Figura 8 Grácos de probabilidade meio-normal com envelopes simulados dos modelos de regressão Poisson e Normal com base no estimador robusto Figura 9 Gráco dos pers individuais (a) e perl médio (b) referentes ao delineamento composto central de 12 pontos simulados Figura 10 Grácos de probabilidade meio-normal com envelopes simulados do modelo de regressão Poisson e Normal com estruturas de correlação: Independente, AR-1 e Uniforme com base no estimador naive Figura 11 Superfícies de resposta na escala do preditor linear ˆη referentes aos modelos de regressão Poisson e Normal, ajustados pelo estimador naive e utilizando a estrutura de correlação AR Figura 12 Superfícies de resposta na escala do preditor linear ˆη referentes aos modelos de regressão Poisson e Normal, ajustados pelo estimador robusto e utilizando a estrutura de correlação AR Figura 13 Grácos de probabilidade meio-normal com envelopes simulados do modelo de regressão Poisson e Normal com estruturas de correlação: Independente, AR-1 e Uniforme com base no estimador robusto Figura 14 Resíduo padronizado e Distância de Cook dos modelos de regressão Poisson e Normal com estrutura de correlação AR-1 e utilizando o estimador naive Figura 15 Resíduo padronizado e Distância de Cook dos modelos de regressão Poisson e Normal com estrutura de correlação AR-1 e utilizando o estimador robusto

10 9 Figura 16 Grácos Boxplot por tempo (Y 1, Y 2 e Y 3 ) do delineamento composto central de 18 pontos Figura 17 Grácos de probabilidade meio-normal com envelopes simulados dos modelos de regressão: Poisson e Normal com base no estimador naive Figura 18 Grácos de probabilidade meio-normal com envelopes simulados dos modelos de regressão: Poisson e Normal com base no estimador robusto Figura 19 Superfícies de resposta na escala do preditor linear ˆη referentes aos modelos de regressão Poisson e Normal, ajustados com base no estimador naive no Tempo Figura 20 Superfícies de resposta na escala do preditor linear ˆη referentes aos modelos de regressão Poisson e Normal, ajustados por meio do estimador robusto no Tempo Figura 21 Gráco dos pers individuais (a) e perl médio (b) referentes ao delineamento composto central de 18 pontos simulados Figura 22 Grácos de probabilidade meio-normal com envelopes simulados dos modelos de regressão Poisson e Normal com estruturas de correlação: (a,b) Independente, (c,d) AR-1 e (e,f) Uniforme com base no estimador naive. 79 Figura 23 Grácos de probabilidade meio-normal com envelopes simulados dos modelos de regressão Poisson e Normal com estruturas de correlação: (a,b) Independente, (c,d) AR-1 e (e,f) Uniforme com base no estimador robusto. 82 Figura 24 Resíduo padronizado e Distância de Cook dos modelos de regressão Poisson e Normal com estrutura de correlação AR-1 e utilizando o estimador naive Figura 25 Resíduo padronizado e Distância de Cook dos modelos de regressão Poisson e Normal com estrutura de correlação AR-1 e utilizando o estimador robusto Figura 26 Superfícies de resposta na escala do preditor linear ˆη referentes aos modelos de regressão Poisson e Normal, ajustados por meio dos estimadores naive e robusto e utilizando a estrutura de correlação AR

11 LISTA DE TABELAS Tabela 1 Estrutura de um conjunto de dados longitudinal Tabela 2 Delineamento composto central de 12 pontos com dados de contagem simulados em três momentos: Y 1, Y 2 e Y Tabela 3 Análise descritiva por tempo (Y 1, Y 2 e Y 3 ) do delineamento composto central de 12 pontos Tabela 4 Estimativa dos parâmetros dos modelos de regressão Poisson e Normal por tempo por meio do estimador naive Tabela 5 Estimativa dos parâmetros dos modelos de regressão Poisson e Normal por tempo por meio do estimador robusto Tabela 6 Estimativa da resposta ( ˆµ s ) no ponto estacionário e variância estimada (método delta), para os modelos Poisson e Normal, em cada tempo Tabela 7 Estimativa dos parâmetros dos modelos de regressão Poisson e Normal, na estrutura longitudinal utilizando o estimador naive Tabela 8 Estimativa dos parâmetros dos modelos de regressão Poisson e Normal, na estrutura longitudinal utilizando o estimador robusto Tabela 9 Estimativa da resposta ( ˆµ s ) no ponto estacionário e variância estimada (método delta), para os modelos Poisson e Normal, na estrutura longitudinal Tabela 10 Intervalos de Conança de (0,95) para µ s com base nos métodos Delta de Primeira Ordem (DPO), Inversa da Função de Ligação (IFL) e Bootstrap Residual (BR) utilizando a matriz de correlação de trabalho AR Tabela 11 Número de defeitos em wafers em um processo de fabricação de semicondutores, medido em três momentos Tabela 12 Análise descritiva por tempo (Y 1, Y 2 e Y 3 ) do delineamento composto central de 18 pontos Tabela 13 Estimativa dos parâmetros dos modelos de regressão Poisson e Normal por tempo por meio do estimador naive Tabela 14 Estimativa dos parâmetros dos modelos de regressão Poisson e Normal por tempo por meio do estimador robusto Tabela 15 Estimativa da resposta ( ˆµ s ) no ponto estacionário e variância estimada (método delta), para os modelos Poisson e Normal, em cada tempo Tabela 16 Estimativa dos parâmetros do modelo de regressão Poisson (lnµ = η), na estrutura longitudinal utilizando o estimador naive Tabela 17 Estimativa dos parâmetros do modelo de regressão Normal ( µ = η), na estrutura longitudinal utilizando o estimador naive

12 11 Tabela 18 Estimativa dos parâmetros do modelo de regressão Poisson (lnµ = η), na estrutura longitudinal utilizando o estimador robusto Tabela 19 Estimativa dos parâmetros do modelo de regressão Normal ( µ = η), na estrutura longitudinal utilizando o estimador robusto Tabela 20 Estimativa da resposta ( ˆµ s ) no ponto estacionário e variância estimada (método delta), para os modelos Poisson e Normal, na estrutura longitudinal Tabela 21 Intervalos de Conança de (0,95) para µ s com base nos métodos Delta de Primeira Ordem (DPO), Inversa da Função de Ligação (IFL) e Bootstrap Residual (BR) utilizando a matriz de correlação de trabalho AR

13 LISTA DE ABREVIATURAS E SIGLAS BR DCC DPO EEGs IFL MLGs MSR QIC Bootstrap Residual Delineamento Composto Central Delta de Primeira Ordem Equações de Estimação Generalizadas Inversa da Função de Ligação Modelos Lineares Generalizados Metodologia de Superfície de Resposta Critério de quasi-verossimilhança sob o modelo de independêcia

14 SUMÁRIO 1 INTRODUÇÃO Contextualização Justicativa Objetivos Procedimentos Metodológicos Estrutura do trabalho METODOLOGIA DE SUPERFÍCIE DE RESPOSTA Denição Delineamentos experimentais para ajuste dos modelos Método da Inclinação Ascendente Otimização do modelo de segunda ordem MODELOS LINEARES GENERALIZADOS PARA ANÁLISE DE DADOS LONGITUDINAIS Denição Equações de Estimação Independentes (EEIs) Equações de Estimação Generalizadas (EEGs) Estimação de β e φ Estruturas de correlação Critério para seleção da estrutura de correlação de trabalho Métodos de diagnóstico MODELO DE SUPERFÍCIE DE RESPOSTA PARA DADOS DE CONTAGEM LONGITUDINAIS Modelo Normal Modelo Poisson Estimação de β Ajuste da superfície de resposta - Modelo de Segunda Ordem Estudo da Variância de ˆµ s Variância do Preditor Linear Variância da Média Intervalos de conança para ˆµ s Intervalo de conança baseado no método delta de 1 a ordem Intervalo de conança baseado no método da inversa da função de ligação Intervalo de conança percentil baseado no bootstrap residual ANÁLISE DOS CONJUNTOS DE DADOS SIMULADOS Modelo com Duas Variáveis Regressoras

15 5.1.1 Análise por tempo Análise Longitudinal Modelo com Três Variáveis Regressoras Análise por tempo Análise Longitudinal CONCLUSÕES REFERÊNCIAS APÊNDICE A ROTINAS DESENVOLVIDAS NO R

16 15 1 INTRODUÇÃO Neste capítulo são apresentadas a contextualização, a justicativa, bem como os objetivos, metodologia e a estrutura do trabalho. 1.1 Contextualização A Metodologia de Superfície de Resposta (MSR) tem como objetivo principal a detecção das condições ótimas de funcionamento de um determinado processo, em que tais condições são identicadas por meio de um estudo da relação de uma variável resposta em função de outras variáveis, chamadas variáveis regressoras (ou fatores). Tornou-se um procedimento padrão de grande utilidade na área industrial, na Física, na Química, na Biologia, dentre outras, para o desenvolvimento, otimização de processos, concepção e desenvolvimento de produtos (JOHNSON; MONTGOMERY, 2009). O procedimento consiste em identicar os níveis dos fatores (quantitativos) que otimizam uma resposta (contínua), conhecida como ponto estacionário ou ponto ótimo, que é usualmente especicado por meio de um modelo de regressão polinomial de segunda ordem (KHURI; MUKHOPADHYAY, 2010). Para respostas com distribuição Normal, isto é, cujos erros são assumidos independentes e normalmente distribuídos, com média zero e variância constante, a análise é feita na forma tradicional dos modelos lineares clássicos (MONTGOMERY; RUNGER, 2003). Nem sempre o modelo clássico de regressão, cujas principais premissas são: Normalidade, Linearidade, Homoscedasticidade e Independência, pode ser utilizado. Tal situação acontece quando se tem dados de contagem. Tradicionalmente, tal problema pode ser contornado com o uso de transformação na resposta, porém isso pode acarretar problemas na precisão da estimativa do ponto estacionário. Uma alternativa mais indicada seria o uso dos Modelos Lineares Generalizados (MLGs) com resposta Poisson (ZAN, 2008; MUDA, 2009), por exemplo. Os MLGs foram propostos por Nelder e Wedderburn (1972) e tratam-se de uma classe de modelos que expande o leque de opções para a distribuição da variável resposta. A estrutura formal dessa classe considera cada observação da variável resposta como sendo independente uma da outra e pertencente à família exponencial linear de distribuições. Distribuições como: Normal, Normal inversa, Poisson, Binomial, Binomial Negativa e Gama pertencem à família exponencial linear. Isso permite que dados de natureza de contagem possam ser analisados na sua escala de medida original, com o ajuste do modelo Poisson ou Binomial Negativa.

17 16 Todavia, existem situações em que no conjunto de dados em estudo, as unidades experimentais aparecem com múltiplas observações, ou seja, como medidas repetidas. Na maioria dos casos estas observações são tomadas ao longo do tempo, possuindo uma estrutura de dados longitudinais, na qual normalmente é considerada que as observações na mesma unidade experimental estejam dependentes (LITTELL et al., 2000). Para isso é necessário o uso de uma metodologia de análise estatística que considere e modele essa estrutura de dependência. Liang e Zeger (1986) propuseram uma extensão dos MLGs, com o objetivo de analisar dados longitudinais. Eles introduziram uma classe de equações de estimação que fornecem estimativas consistentes dos parâmetros de regressão do modelo em estudo. Essa classe é chamada de Equações de Estimação Generalizadas (EEGs). Nessa pesquisa foi realizado um estudo comparativo entre o modelo de regressão linear clássico com transformação na variável resposta e o modelo de regressão Poisson, por meio da análise de dois conjuntos de dados simulados. O estudo comparativo entre os modelos foi feito com base na precisão do ponto estacionário, avaliada pelos métodos da inversa da função de ligação, método delta e o método do bootstrap residual. O diferencial no ajuste da superfície de resposta proposto nesse trabalho é que o mesmo não está limitado ao ajuste tradicional, o qual utiliza apenas resposta Normal e não aborda medidas repetidas. Nesse trabalho a superfície de resposta foi ajustada sob o enfoque dos MLG's para medidas repetidas, com resposta Poisson, e ainda leva em consideração a correlação intra-unidades experimentais medidas no tempo. 1.2 Justicativa Os modelos lineares normais são utilizados na tentativa de descrever a maioria dos fenômenos aleatórios, porém, na prática nem sempre observam-se dados em que a variável de interesse respeita as pressuposições do modelo de regressão clássico, sendo uma delas a normalidade da variável resposta (PAULA, 2013). Uma forma de contornar o problema da não normalidade da variável resposta, a m de se poder utilizar o modelo de regressão clássico, seria a aplicação de algum tipo de transformação na resposta. Porém, uma desvantagem ao se utilizar a transformação, é a diculdade na interpretação dos dados em sua escala original, tendo em vista que a análise passa a ser realizada em relação a uma nova variável que não possui a mesma estrutura funcional da variável original. Outra desvantagem é a questão da estimativa da média em relação ao ponto estacionário, que pode ser sub/superestimada em virtude da não utilização de um modelo mais apropriado ao conjunto de dados.

18 17 A escolha do tema estudado foi motivada pela carência de trabalhos dessa natureza, além da sua importância acadêmica e prática, na ótica da MSR. Acadêmica pelo fato de, até o presente momento, não ter sido encontrado na literatura da área, trabalhos que façam estudos comparativos das abordagens clássica versus MLGs sobre a precisão da estimativa da média da resposta no ponto estacionário da superfície de resposta considerando dados longitudinais. Prática por ser uma alternativa necessária aos métodos clássicos (via transformação da resposta) usualmente utilizados. 1.3 Objetivos De forma geral, o objetivo do trabalho foi realizar um estudo comparativo do método clássico de superfície de resposta, utilizando transformação na resposta ( µ = η), e do MLG Poisson (lnµ = η) para a estimação da precisão no ponto estacionário, considerando dados de contagem longitudinal. De maneira especíca os objetivos foram: i) Estudar a MSR tradicional e via MLGs considerando a abordagem das EEGs, propriedades e estimação; ii) Fazer um estudo da precisão do ponto estacionário com estimação pontual e intervalar, dos modelos em (i); iii) Comparar as abordagens descritas em (ii) fazendo uso de dados simulados. 1.4 Procedimentos Metodológicos Este trabalho trata-se de uma pesquisa de natureza teórica e aplicada. Teórica por apresentar um levantamento bibliográco acerca da Metodologia de Superfície de Resposta, dos Modelos Lineares Generalizados para análise de dados longitudinais, do método delta e do método bootstrap. De natureza prática, pois compara a precisão dos modelos ajustados, utilizando-se de conjuntos de dados simulados. 1.5 Estrutura do trabalho Esta dissertação encontra-se dividida em 6 capítulos. No Capítulo 1 é apresentada uma introdução, a qual contém a contextualização, a justicativa, os objetivos e os procedimentos metodológicos da pesquisa. No Capítulo 2 é apresentada a metodologia

19 18 de superfície de resposta. No Capítulo 3 são abordados os modelos lineares generalizados para análise de dados longitudinais. No Capítulo 4 é apresentado o modelo de superfície de resposta para dados de contagem longitudinais. No capítulo 5 é apresentada a análise dos conjuntos de dados simulados. E, por m, no Capítulo 6 são apresentadas as conclusões e, na sequência, as referências bibliográcas e apêndice.

20 19 2 METODOLOGIA DE SUPERFÍCIE DE RESPOSTA superfície de resposta. Neste capítulo é apresentada a denição e estruturação da metodologia de 2.1 Denição A Metodologia de Superfície de Resposta (MSR), ou Response Surface Methodology é uma coleção de técnicas matemáticas e estatísticas, as quais são úteis para modelar e analisar problemas em que a variável de interesse (variável resposta) é inuenciada por várias outras variáveis independentes (fatores) na otimização de processos (MONTGOMERY, 2013; ACHCAR et al., 2014). A MSR é um procedimento sequencial e extenso, cujo objetivo é identicar as soluções ótimas de um processo de acordo com as restrições do mesmo. Isso permite que o interessado não só entenda o mecanismo do sistema, mas também encontre as condições ideais para o mesmo. As principais diretrizes para se trabalhar com um modelo de superfície de resposta são: Amostragem, Modelagem e Otimização. Em Montgomery (2013) é apresentado um exemplo em que um engenheiro químico deseja encontrar os níveis de temperatura (x 1 ) e pressão (x 2 ) que maximizam o rendimento (y) de um processo. O rendimento do processo é uma função dos níveis de temperatura e pressão, podendo ser expresso da seguinte forma: y = f(x 1, x 2 ) + ɛ, (1) em que ɛ representa o erro experimental ou amostral, para o qual supõe-se uma distribuição Normal de média zero e variância σ 2. Sendo a esperança de y denotada por E(Y ) = f(x 1, x 2 ), então ŷ = f(x 1, x 2 ) (2) é chamada de superfície de resposta.

21 20 Figura 1: Superfície de resposta e gráco de contorno do valor esperado do rendimento (ŷ) em função da temperatura (x 1 ) e pressão (x 2 ). FONTE: Montgomery (2013) De acordo com Montgomery (2013), na maioria dos problemas que envolvem MSR a maneira como a resposta se relaciona com os fatores é desconhecida. Com isso o primeiro passo é encontrar uma aproximação apropriada para a verdadeira relação entre a variável resposta e os fatores. Costuma-se empregar um polinômio de ordem inferior em alguma região das variáveis independentes, e se a resposta é bem modelada por uma função linear dos fatores, então a função de aproximação é o modelo de primeira ordem y = β 0 + β 1 x 1 + β 2 x β k x k + ɛ, (3) sendo β i 's, i = 0, 1, 2,..., k, os parâmetros do polinômio e k o número de variáveis regressoras do modelo. Se houver curvatura no sistema, então deve ser usado um polinômio de grau mais elevado, tal como o modelo de segunda ordem y = β 0 + k β i x i + k β ii x 2 i + k k β ij x i x j + ɛ, i < j (4) i=1 i=1 i=1 j=1 sendo β i 's, i = 0, 1, 2,..., k, os parâmetros de primeiro grau, β ii 's os parâmetros de segundo grau e os β ij 's os de interação entre os níveis dos fatores do modelo (MYERS et al., 1989). Quase todos os problemas que envolvem MSR usam um ou ambos os modelos (3) e (4). No entanto, um modelo polinomial pode não ser uma aproximação razoável da verdadeira relação funcional ao longo de todo o espaço dos fatores, mas por uma

22 21 região relativamente pequena ele normalmente funciona muito bem (MONTGOMERY; RUNGER, 2003). 2.2 Delineamentos experimentais para ajuste dos modelos Para um melhor ajuste dos modelos (3) e (4) é necessário que sejam realizados delineamentos experimentais adequados para a coleta dos dados. 1 o CASO - Modelos de Primeira Ordem De acordo com Khuri e Mukhopadhyay (2010) é muito comum utilizar os seguintes delineamentos em modelos de primeira ordem: 2 k Fatorial, em que k é o número de fatores, Plackett-Burman e o Simplex. No Delineamento 2 k Fatorial, cada fator possui dois níveis que podem ser codicados para os valores 1 e 1, os quais correspondem aos chamados baixo e alto nível de cada variável independente (fator). Este delineamento consiste em usar todas as combinações possíveis dos níveis dos k fatores. No Delineamento Plackett-Burman é permitido dois níveis para cada um dos k fatores, assim como no delineamento 2 k Fatorial, porém exige um número bem menor de experimentos, especialmente se k for grande. Portanto, é mais econômico do que o delineamento 2 k Fatorial. Este delineamento é dito ser saturado, pois o número de pontos do desenho é igual ao número de parâmetros a serem estimados no modelo. O Delineamento Simplex também é saturado e seus pontos estão localizados nos vértices de uma gura k-dimensional do tipo regular ou de um simplex, caracterizado pelo fato de que o ângulo θ que ca localizado na origem do sistema de coordenadas, feito por qualquer dois pontos e o centro do desenho, é tal que o cos(θ) = 1. Por exemplo, k para k = 2, o delineamento consiste nos vertíces de um triângulo equilátero, cujo centro é (0, 0), e para k = 3, os pontos do desenho são os vértices de um tetaedro centrado em (0, 0, 0). 2 o CASO - Modelos de Segunda Ordem De acordo com Khuri e Mukhopadhyay (2010) frequentemente são usados os seguintes delineamentos em modelos de segunda ordem: 3 k Fatorial, Composto Central e o Box-Behnken.

23 22 O Delineamento 3 k Fatorial, consiste em todas as combinações dos níveis dos k fatores que possuem três níveis cada. Se os níveis estiverem igualmente espaçados, então eles podem ser codicados para que correspondam a 1, 0, 1. O número de experimentos para este delineamento é 3k, que pode ser muito grande dependendo do valor de k. O Delineamento Composto Central - DCC, possivelmente é o mais popular para o caso de modelos de segunda ordem. Este delineamento consiste nas seguintes partes (DEAN et al., 2015): 1 - Um delineamento fatorial completo (ou uma fração) 2 k, cujos níveis dos fatores são codicados com 1 e 1; 2 - Uma porção axial que consiste em 2k pontos, de modo que sejam escolhidos dois pontos no eixo de cada fator a uma distância α do centro do desenho (escolhido como ponto a origem do sistema de coordenadas); 3 - Uma porção de n 0 pontos centrais. Portanto, o número total de pontos no DCC é n = 2 k + 2k + n 0. O DCC é obtido aumentando o modelo de primeira ordem, isto é, o fatorial 2 k com os seguintes experimentos adicionais: 2k pontos axiais e n 0 replicações de pontos centrais. O modelo de primera ordem é util na fase preliminar para obter informações sobre o sistema de resposta e para avaliar a inuência dos fatores em um dado experimento. Os experimentos adicionais são escolhidos com o objetivo de obter mais informações que possam levar à determinação de condições operacionais ótimas nas variáveis de controle usando o modelo de segunda ordem. Os valores de α (ou o parâmetro axial) e n 0, o número de replicações de ponto central, são escolhidos de modo que o DCC possa adquirir certas propriedades desejáveis. Por exemplo, escolhendo α = F 1 4, em que F denota o número de pontos na parcela fatorial, fazendo com que o DCC seja rotacionável. Em relação ao valor de n 0 o mesmo pode ser escolhido de modo que o DCC consiga a propriedade de ortogonalidade.

24 23 Figura 2: Delineamento composto central para k = 2 e k = 3. FONTE: Montgomery (2013) O Delineamento Box-Behnken, fornece três níveis para cada fator e consiste em um subconjunto particular das combinações fatoriais do delineamento fatorial 3 k. Este delineamento é popularmente utilizado na pesquisa industrial porque é um delineamento econômico e requer somente três níveis para cada fator, em que os níveis são codicados em 1, 0, Método da Inclinação Ascendente Geralmente a estimativa inicial das condições ótimas para o sistema está longe de ser a verdadeira, neste caso o interesse é auxiliar o pesquisador a encontrar a região ótima de maneira rápida utilizando um procedimento simples e ao mesmo tempo economicamente eciente. A análise de uma superfície de resposta pode ser considerada como o processo de subir uma colina, em que o topo da colina representa o ponto de resposta máxima. Se o verdadeiro ótimo é um ponto de resposta mínima, então pode-se pensar em descer para um vale(montgomery; RUNGER, 2003). Quando se está distante da região ótima, assumi-se que um modelo de primeira ordem é uma aproximação adequada da verdadeira superfície de resposta em uma pequena região dos fatores, ou região experimental. No entanto, se a região do ótimo for encontrada, um modelo mais elaborado, como o de segunda ordem por exemplo, pode ser empregado e uma análise pode ser feita para localizar o ponto ótimo (MONTGOMERY; RUNGER, 2003). O Método da Inclinação Ascendente é um procedimento que move o delinea-

25 24 mento sequencialmente na direção do aumento da resposta. De acordo com Myers et al. (2009) os passos desse método geralmente podem ser descritos da seguinte forma: Passo 1 - O pesquisador ajusta um modelo de primeira ordem em alguma região restrita das variáveis independentes (fatores); Passo 2 - A informação a partir do passo 1 é usada para localizar uma direção para aumentar a resposta ao máximo; Passo 3 - Uma série de experimentos é conduzida ao longo do caminho até que nenhum aumento adicional na resposta seja evidente; Passo 4 - Repetir os passos 1, 2 e 3 em uma nova região, que pareça ser promissora como indicado pelo passo Otimização do modelo de segunda ordem Um dos principais objetivos da MSR é a determinação da otimalidade das variáveis independentes (fatores), as quais retornam uma resposta de valor máximo ou mínimo em relação a uma determinada região de interesse. As técnicas de otimização utilizadas na MSR dependem da natureza do modelo ajustado. A resposta prevista do modelo de segunda ordem, denido em (4), pode ser escrito matricialmente da seguinte forma: ŷ = ˆβ 0 + x b + x Bx (5) sendo x = (x 1,..., x k ), b = ( ˆβ 1, ˆβ 2,..., ˆβ k ) e B uma matriz simétrica de ordem k k, em que o i-ésimo elemento de sua diagonal é ˆβ ii (i = 1, 2,..., k) e os elementos que não pertencem à sua diagonal são 1 2 ˆβ ij (i, j = 1, 2,..., k; i j). Supondo que se deseje encontrar os níveis de x 1, x 2,..., x k que otimizam a resposta prevista. Este ponto, se existir, será o conjunto de x 1, x 2,..., x k para o qual as derivadas parciais ŷ/ x 1 = ŷ/ x 2 =... = ŷ/ x k = 0. Este ponto é x s = (x s1, x s2,..., x sk ), o qual é chamado de ponto estacionário. A derivada de ŷ em relação aos elementos do vetor x, igualada a zero, é dada

26 25 por: ŷ x = b + 2Bx = 0. (6) Assim, o ponto estacionário é a solução da equação (6), ou seja: x s = 1 2 B 1 b. (7) Dessa forma, substituindo a equação (7) em (5), pode-se encontrar a resposta prevista no ponto estacionário como: ŷ s = ˆβ x s b. (8) Depois que é encontrado o ponto estacionário, geralmente é necessário caracterizar a superfície de resposta na vizinhança desse ponto. Neste caso seria dizer se o ponto estacionário é um ponto de resposta máxima ou mínima ou um ponto de sela. Uma forma simples de se fazer isso seria examinar um gráco de contorno do modelo ajustado, como por exemplo o mostrado na Figura 1. Porém uma análise mais formal, chamada de análise canônica, pode ser mais útil, principalmente quando se está trabalhando com mais de três variáveis regressoras. Para isso é necessário primeiro transformar o modelo em um novo sistema de coordenadas com a origem no ponto estacionário x s e depois girar os eixos desse sistema até que estejam paralelos aos eixos principais da superfície de resposta ajustada. A transformação é ilustrada na Figura 3.

27 26 Figura 3: Forma canonica do modelo de segunda ordem. FONTE: Montgomery (2013) A transformação resulta no seguinte modelo ajustado (MONTGOMERY, 2013): ŷ = ŷ s + λ 1 w λ 2 w λ k w 2 k (9) em que os w i 's são as variáveis independentes transformadas e os λ i 's são constantes. A equação (9) é chamada de forma canônica do modelo e os λ i são os autovalores ou raízes características da matriz B. A natureza da superfície de resposta pode ser determinada a partir do ponto estacionário e os sinais e magnitudes de λ i. Primeiramente, é necessário supor que o ponto estacionário está dentro da região de exploração para ajuste do modelo de segunda ordem. Se todos os λ i 's são positivos, então x s é um ponto de resposta mínima; Se todos os λ i 's são negativos, então x s é um ponto de resposta máxima; E se os λ i 's tiverem sinais diferentes, então x s é um ponto de sela. Os autovalores são obtidos a partir da seguinte relação: em que I é uma matriz identidade de ordem k k. B λi = 0 (10)

28 27 3 MODELOS LINEARES GENERALIZADOS PARA ANÁLISE DE DADOS LONGITUDINAIS Neste capítulo são apresentadas as Equações de Estimação Generalizadas (EEGs) desenvolvidas por Liang e Zeger (1986), utilizando a teoria de função de estimação (GODAMBE, 1960). Uma função de estimação é uma função dos dados e dos parâmetros de interesse. O objetivo ao estudar as funções de estimação é o estabelecimento de condições que garantam que os estimadores dos parâmetros envolvidos possuam boas propriedades, dentre elas consistência e distribuição assintótica conhecida. Liang e Zeger (1986) propuseram uma extensão dos Modelos Lineares Generalizados (MLGs), com o objetivo de analisar dados longitudinais. Eles introduziram uma classe de equações de estimação que fornecem estimativas consistentes dos parâmetros de regressão do modelo em estudo, bem como de suas variâncias sob condições moderadas de regularidade. É exigida a especicação correta das distribuições marginais univariadas desde que esteja disposto a adotar uma matriz de correlação de trabalho que indica o grau de dependência entre as medidas repetidas (TRINDADE, 2014). O termo medidas repetidas refere-se a dados com múltiplas observações na mesma unidade experimental. Na maioria dos casos estas observações são tomadas ao longo do tempo, mas também podem ser tomadas no espaço ou em qualquer outra escala ordenada. Como é plausível supor que as observações na mesma unidade experimental estejam correlacionadas, logo a análise estatística deve abordar a questão da covariância entre as medidas da mesma unidade, caso contrário isso poderá resultar em inferências imprecisas (LITTELL et al., 2000). Os dados longitudinais são frequentemente encontrados em áreas como: Engenharia, Biologia, ciências médicas, saúde pública, ciências sociais, dentre outras. São dados observados de forma sequencial ao longo do tempo e podem ser coletados de um estudo observacional ou de um experimento projetado. Em essência, os dados longitudinais podem ser considerados como uma coleção de muitas séries temporais (SONG, 2007). Em estudos longitudinais, os dados associados a cada unidade experimental podem ser expressos na forma de um vetor cujos elementos são os valores da variável resposta em cada instante de observação e de uma matriz cujos elementos correspondem aos valores das variáveis explicativas (ou covariáveis), que podem variar entre unidades experimentais ou podem variar também dentro das unidades experimentais, quando estas são covariáveis dependentes do tempo. Os dados longitudinais podem ser balanceados, quando todas as unidades experimentais são medidas nos mesmos instantes (igualmente

29 28 espaçados ou não), ou desbalanceados quando os dados são coletados irregularmente ao longo do tempo (SINGER et al., 2011). Na Tabela 1 é apresentada a estrutura de um conjunto de dados observados ao longo do tempo, em que em cada unidade experimental, tanto a resposta (Y ) como as covariáveis (X 1,..., X p ) são observadas em cada instate do tempo. Tabela 1: Estrutura de um conjunto de dados longitudinal Unidade Resposta Covariáveis Tempo Experimental Y X 1 X 2... X p 1 1 y 11 x 111 x x 11p 1 2 y 12 x 121 x x 12p t 1 y 1t1 x 1t1 1 x 1t x 1t1 p 2 1 y 21 x 211 x x 21p 2 2 y 22 x 221 x x 22p t 2 y 2t2 x 2t2 1 x 2t x 2t2 p n 1 y n1 x n11 x n12... x n1p n 2 y n2 x n21 x n22... x n2p n t n y ntn x ntn1 x ntn2... x ntnp Fonte: Adaptado de Singer et al. (2011). 3.1 Denição Sejam y i = (y i1, y i2,..., y iti ) vetores aleatórios de respostas mutuamente independentes de medidas repetidas e X i = (x i1, x i2,..., x iti ) uma matriz (t i p) referente às covariáveis para a i-ésima unidade experimental com x ij = (x ij1,..., x ijp ), i = 1,..., n e j = 1,..., t i. A m de simplicar a notação pode-se considerar t i = t sem perda de generalidade (LIANG; ZEGER, 1986; VENEZUELA et al., 2007). Neste caso assumi-se que a densidade marginal de y ij pertence à família exponencial linear, ou seja: f(y ij, θ ij, φ) = exp {φ [y ij θ ij b(θ ij )] + c(y ij, φ)}, (11)

30 29 em que θ ij = h(η ij ), η ij = x ijβ é o preditor linear e β = (β 1,..., β p ) é o vetor (p 1)de parâmetros a serem estimados com p < n. Por esta formulação os dois primeiros momentos de y ij são dados por (LIANG; ZEGER, 1986; PARK et al., 1998): E(y ij ) = b (θ ij ) = µ ij, (12) V ar(y ij ) = φ 1 b (θ ij ) = φ 1 v(µ ij ), (13) sendo v(µ ij ) conhecida como função de variância e φ 1 > 0 o parâmetro de dispersão, que geralmente é desconhecido. As médias µ ij são modeladas como nos MLGs, em que g(µ ij ) = η ij e g(.) é uma função monótona e duplamente diferenciável denominada função de ligação. As funções de ligação mais utilizadas são obtidas quando o parâmetro canônico θ ij coincide com o preditor linear, ou seja, quando θ ij = η ij e a função de ligação nestes casos é chamada de ligação canônica (McCULLAGH;NELDER, 1983). 3.2 Equações de Estimação Independentes (EEIs) Nesta seção é apresentado o estimador β I de β em que é considerado que as medidas repetidas referentes a uma mesma unidade experimental são independentes. A função de estimação ótima, que é a função escore de um MLG, de β é dada por (VENEZUELA, 2003): U I β = φ n i=1 D i A 1 i (y i µ i ), (14) em que D i = X i Λ i e Λ i = diag ( µ i1 / η i1,..., µ it / η it ), A i = diag (v(µ i1 ),..., v(µ it )) e µ i = (µ i1,..., µ it ) (VENEZUELA et al., 2007). A equação de estimação independente de β é obtida igualando uma função de estimação ótima (GODAMBE, 1960) a zero, ou seja: U I β = n i=1 D i A 1 i (y i µ i ) = 0. (15) A matriz de correlação correspondente à i-ésima unidade experimental corresponde à matriz identidade de dimensão (t t), com isso a matriz de variância-covariância de Y i é dada por (PAULA, 2013): Cov(Y i ) = φ 1 A i. (16)

31 30 De acordo com Venezuela (2003), um estimador consistente para a matriz de covariâncias de β I quando as observações de uma mesma unidade experimental são independentes, é dado por: V I = { φ n D } 1 i=1 i  1 i D i. (17) 3.3 Equações de Estimação Generalizadas (EEGs) Nesta seção é apresentada uma classe de equações de estimação que leva em conta a correlação dentro de cada unidade experimental, a m de aumentar a eciência do estimador. Essa metodologia é utilizada para estimar parâmetros de interesse quando os dados são correlacionados e a distribuição marginal pertence a família exponencial linear. Para isso torna-se necessário a introdução de uma estrutura de correlação na função escore, produzindo um novo sistema de equações para estimar β, conforme descrito por Liang e Zeger (1986). Ao considerar-se que R i é a verdadeira matriz de correlação dos y i s, então a matriz de variância-covariância de Y i, por denição, é dada por: consequentemente a equação de estimação de β é dada por: Σ i = φ 1 A 1 2 i R i A 1 2 i, (18) Z β (β) = n i=1 D i Σ 1 i (y i µ i ). (19) Para se estimar β deve-se resolver o seguinte sistema de equações: Z β ( β G ) = 0, (20) e neste caso, um estimador consistente para a matriz de covariâncias β G (LIANG; ZEGER, 1986; ZEGER; LIANG, 1986; VENEZUELA, 2003): se reduz a V G = { n i=1 D i Σ 1 i D i } 1, (21) o qual recebe os nomes de estimador naive ou model-based. Contudo, a função Z β (β) é pouco utilizada, pois geralmente a matriz de cor-

32 31 relação R i é desconhecida. Para contornar o problema Liang e Zeger (1986) propuseram uma matriz (t t) simétrica, dada por R(α) que atende o requisito de ser uma matriz de correlação, em que α é um vetor (s 1) que caracteriza completamente R(α). Essa matriz é conhecida como matriz de correlação de trabalho. Neste caso R(α) não precisa ser necessariamente a verdadeira matriz de correlação dos y i 's. Assim, para se estimar β é necessário resolver o seguinte sistema de equações: Z β ( β G ) = 0, (22) denominado Equações de Estimação Generalizadas (EEGs) em que: e Z β (β) = n i=1 D i Ω 1 i (y i µ i ), (23) sendo Ω i a matriz de variância-covariância de y i. Ω i = φ 1 A 1 2 i R(α)A 1 2 i, (24) Liang e Zeger (1986) sugeriram um estimador para a matriz de covariâncias de β G, conhecido na literatura como estimador robusto, empírico ou sanduíche, que é consistente mesmo quando a matriz de correlação de trabalho não esteja denida corretamente. O estimador é dado por: V G = { n i=1 D i Ω 1 i em que u = (y i µ i ). D i } 1 { n i=1 D i } { 1 n Ω i uu Ω 1 i D D i i=1 i Ω 1 i D i } 1, (25) A estimativa de V G é obtida substituindo β, α e φ por suas respectivas estimativas consistentes. Considerando que o modelo de regressão está corretamente especicado, o estimador naive é consistente se a matriz de correlação de trabalho também estiver corretamente especicada, porém o estimador robusto é sempre consistente. Todavia, como o estimador robusto é assintoticamente não viesado, suas propriedades são garantidas apenas quando o número de unidades experimentais é grande, caso contrário o mesmo poderá ser altamente viesado (PRENTICE, 1988).

33 Estimação de β e φ O processo iterativo para calcular β G combina o método scoring de Fisher para estimar β, com o método dos momentos para estimar os parâmetros de correlação α e o parâmetro de escala φ: β G (m+1) = βg (m) + { [ n i=1 D i Ω 1 i D i ] 1 [ n i=1 D i ] } (m) 1 Ω i (y i µ i ), (26) em que m = 0, 1, 2,... é o número de iterações. A estimativa inicial βg (0) é arbitrária (McCULLAGH;NELDER, 1983; VENEZUELA et al., 2007). A expressão (26) pode ser reescrita como β G (m+1) = { [ n i=1 X i W ix i ] 1 [ n i=1 X i W iz i ] } (m) (27) em que W i = Λ Ω 1 1 i i Λ i e z i = η i + Λ i (y i µ i ). Na convergência obtemo-se β G ( X W X ) 1 X W z (28) sendo W = diag (W 1,..., W n ) uma matriz de pesos X = (X 1,..., X n ) e z = (z 1,..., z n ). Os parâmetros α e φ podem ser estimados a partir dos resíduos de Pearson (LIANG;ZEGER, 1986). O resíduo de pearson na iteração m, para cada observação y ij, é dado por: r (m) ij = y ij µ (m) ij, (29) v(µij )(m) em que v(µ ij ) é o j-ésimo elemento da diagonal principal de Âm i, denida em (14). por: A estimativa de φ, obtida no m-ésimo momento do processo iterativo, é dada φ (m) = { n i=1 ( r (m) ij ) 2 /(nt p)} 1. (30)

34 Estruturas de correlação O procedimento das EEGs para estimar β permite várias formas de especicação para a estrutura da matriz de correlação de trabalho R(α) (LIANG; ZEGER, 1986; DAMIANI, 2012). A seguir são apresentadas algumas delas. 1 - Independente: Seja R(α) = R 0 uma matriz (t t) de correlação qualquer, quando R 0 = I, a matriz identidade, obtem-se a equação de estimação independente. Para qualquer R 0, β G e V G serão consistentes e quanto mais próxima da verdadeira matriz de correlação estiver a matriz de correlação de trabalho, a eciência aumenta (LIANG; ZEGER, 1986; JOHNSTON, 1996). Nesse caso, R(α) = R 0 é denida por R(α) = R 0 = Autoregressiva AR-1: t t. A matriz de correlação autorregressiva de primeira ordem, AR-1, especica que Corr(y ij, y il ) = α j l, em que 1 j e l t. Para y ij com distribuição Normal, E( r ij r il ) = α j l. Então, α no passo m pode ser estimado pelo coeciente angular da regressão em que a variável dependente é log( r (m) ij r (m) il ) e a independente é log j l. A matriz é dada por em que α (0, 1). 1 α 1 α 2 α 1 R(α) = α 3 α 2 α α t... α 3 α 2 α 1 t t. O estimador α é dado por α = n i=1 j t 1 r2 ij r 2 i,j+1 φ(n(t 1) p) (31)

35 Uniforme: A matriz de correlação uniforme assume que Corr(y ij, y il ) = α, j l, em que 1 j e l t, de modo que e 4 - Não estruturada: n α (m) (m) = φ i=1 t j>l ( ) r (m) ij r (m) 1 il / nt(t 1) p 2 1 α 1 R(α) = α α α α 1 t t. (32) A matriz de correlação não estruturada pode ser estimada por em que R( ˆα (m) ) = 1 n [ φ n i=1  1 2 i (y i ˆµ i )(y i ˆµ i )  1 2 i 1 α 21 1 R(α) = α 31 α α t1 α t(t 1) 1 t t. ] (m) (33) 3.5 Critério para seleção da estrutura de correlação de trabalho A seleção de modelos é uma etapa bastante importante na análise de dados. Para a regressão linear clássica, com dados independentes, um dos métodos utilizados é o Critério de Informação de Akaike (AIC). Porém, o AIC é baseada na probabilidade e propriedades assintóticas do estimador de máxima verossimilhança (PAN, 2001). Sua expressão é dada por: AIC = 2LL + 2p, em que LL é o logaritmo da máxima verossimilhança e p é o número de parâmetros no modelo (AKAIKE, 1974; CUI, 2007). Como nenhuma distribuição é assumida em Equações de Estimatição Generalizadas (EEGs), não há probabilidade denida, logo o AIC não pode ser usado diretamente. Com isso, Pan(2001) propôs um método de seleção de estrutura de correlação para EEGs, chamado critério de quasi-verossimilhança sob o modelo de independência - QIC, denido

36 35 da seguinte forma: QIC(R) = 2Q( ˆβ(R); I, D) + 2traço(ˆΩ I ˆV R ), (34) em que Q é a quasi-verossimilhança, ˆβ(R) é o vetor de estimadores de quasi-verossimilhança sob o modelo candidato com matriz de correlação R, I é a matriz identidade, D são os dados observados, ˆΩ I = 2 Q(β, I, D)/ β β β= ˆβ e ˆV R é o estimador de covariâncias robusto obtido por meio do modelo contendo a matriz de correlação R (PAN, 2001; AGRANONIK, 2009). O QIC pode ser utilizado para comparar as estruturas de matriz de correlação de trabalho, em que o critério de escolha é baseado no menor valor do mesmo. 3.6 Métodos de diagnóstico Os procedimentos apresentados a seguir foram extraídos de Venezuela(2003) e Venezuela et al. (2007). Resíduo Padronizado: O resíduo padronizado associado à y ij é denido por (r SD ) ij = e (ij) W 1 2 Λ 1 (y µ) 1 hij, (35) em que e (ij) é um vetor de dimensão (1 t) de zeros, com 1 na j-ésima posição e h ij é o j-ésimo elemento da diagonal principal da matriz hat, associada ao i-ésimo indivíduo, dada por: H i = W 1 2 i X i (X W X) 1 X i W 1 2 i. (36) A matriz de alavancagem geral H é dada por diag (H 1,..., H n ). Além disso, ela é simétrica e idempotente, de maneira que o rank(h) = traço(h) = p. Ponto Alavanca: Um grande valor de h ij indica que y ij tem uma grande inuência no seu respectivo valor ajustado ŷ ij. A i-ésima unidade experimental é dita ser um ponto alavanca,

37 36 se em que N = nt. h i. = 1 t t j=1 h ij 2p N, (37) Pode-se vericar também se a unidade experimental é um ponto alavanca fazendo o gráco de h i. versus i, em que i = 1,..., n. Ponto Aberrante/Discrepante/Outlier: Para detectar um ponto aberrante por meio da análise gráca, pode-se utilizar o resíduo padronizado (r SD ) ij versus i, em que i = 1,..., n e j = 1,..., t. Um ponto é considerado aberrante quando este possui perl diferente dos demais no que diz respeito aos valores da variável resposta e também apresenta valor baixo na matriz de projeção H. Ponto Inuente: Um ponto é considerado inuente quando este possui perl diferente dos demais no que diz respeito aos valores da variável resposta, porém apresenta valor alto na matriz de projeção H. Esse tipo de ponto pode inuenciar bastante na estimação dos parâmetros de regressão do modelo e pode ser detectado por meio de uma medida chamada distância de Cook. A distância de Cook mede o afastamento entre a estimativa do vetor paramétrico utilizando todas as observações ( β G ) e sem a observação y ij ( β G(ij) ), em que i = 1,..., n e j = 1,..., t. Como, em geral, não é possível uma forma fechada para ( β G(ij) ), tem sido utilizada uma aproximação de um passo, que consiste em tomar a primeira iteração do processo iterativo pelo método de scoring de Fisher quando o mesmo é iniciado em β G. A aproximação ca expressa para os MLGs com medidas repetidas na forma: G(ij) = β G [X W X] 1 [X W 1 2 e(ij) ][e (ij) W 1 2 Λ 1 (y µ)]. (38) 1 h ij β (1) Com isso, a distância de Cook, quando se exclui a observação y ij, é denida por (COOK, 1977)

38 37 (CD) ij = 1 p ( β G β G(ij) ) X W X( β G β G(ij) ) = (r SD ) 2 ij p(1 h ij ). (39) Para vizualização gráca, basta fazer (CD) ij, i = 1,..., n e j = 1,..., t versus o índice i. Daí é considerado ponto inuente aquele que possuir uma valor alto na distância de Cook quando comparado aos demais. h ij

39 38 4 MODELO DE SUPERFÍCIE DE RESPOSTA PARA DADOS DE CONTA- GEM LONGITUDINAIS Os modelos lineares clássicos são utilizados para estudo de fenômenos aleatórios, porém nem sempre esses fenômenos apresentam uma estrutura de dados na qual se pode considerar as pressuposições necessárias. Por exemplo, no caso de dados de contagem é necessário a aplicação de uma transformação na variável resposta Y, usualmente utilizada y, a m de buscar a normalidade dos dados e constância de variância e desta forma utilizar a metodologia tradicional (PAULA, 2013). Os MLG's fornecem muitas opções para a escolha da variável resposta,o que já evita a necessidade de aplicação de uma transformação da variável resposta e permite o estudo do fenômeno com os dados na escala original. Para utilização dessa metodologia, a variável resposta, ou componente aleatório do modelo, deve ter uma distribuição pertencente à família de distribuições (11) que engloba as distribuições Normal, Gama e Normal Inversa para dados contínuos; Binomial para proporções; Poisson e Binomial Negativa para contagens (CORDEIRO; DEMÉTRIO, 2007). Todavia, os MLG's tradicionais assumem independência entre as observações, e quando se está tratando de dados com uma estrutura longitudinal, tal suposição pode não ser mais razoável. No presente capítulo serão apresentadas duas modelagens para dados de contagem longitudinais para os modelos de superfície de resposta, cujas estimativas dos parâmetros do modelo se darão por meio da abordagem EEG proposta por Liang e Zeger (1986), uma utilizando resposta Normal, em que neste caso será aplicada uma transformação na variável resposta, e outra utilizando resposta Poisson. 4.1 Modelo Normal A distribuição Normal é utilizada no ajuste de dados de contagem quando aplica-se alguma transformação nos dados. Seja y ij uma variável aleatória com distribuição Normal de média µ ij e variância σ 2, ou seja, y ij N (µ ij, σ 2 ) e i = 1,..., n, j = 1,..., t, sua função densidade de probabilidade na estrutura longitudinal é dada por: que é equivalente a f(y ij, µ ij, σ) = exp { [y ij µ ij ] 2 /2σ 2} 1 2πσ 2, (40)

40 39 { 1 f(y ij, µ ij, σ) = exp σ (y ijµ 2 ij µ2 ij 2 ) 1 [ y 2 2 ij /σ 2 + ln(2πσ 2 ) ]}, (41) em que i = 1,..., n, j = 1,..., t, < µ ij, y ij < e σ 2 > 0. Como a equação (41) é da forma da equação (11), logo tem-se que θ ij = µ ij, b(θ ij ) = µ2 ij, φ = [ 1 e c(y 2 σ 2 ij, φ) = 1 2 y 2 ij /σ 2 + ln(2πσ 2 ) ]. O preditor linear é dado por η ij identidade, ou seja, η ij =g(µ ij )=µ ij = x ij β. = x ijβ. A função de ligação canônica é a 4.2 Modelo Poisson O modelo de probabilidade frequentente utilizado para modelar dados de contagem é o Poisson, cuja função densidade de probabilidade é expressa da seguinte forma (MYERS et al., 2010): que é equivalente a f(y ij, µ ij ) = e µ ij µ y ij ij y ij!, (42) f(y ij, µ ij ) = exp [y ij ln µ ij µ ij ln(y ij!)], (43) sendo y ij = 0, 1, 2,..., i = 1,..., n e j = 1,..., t. Como a equação (43) também é da forma da equação (11), logo tem-se que θ ij = ln µ ij, b(θ ij ) = e θ ij, φ = 1 e c(y ij, φ) = ln(y ij!). Sob as pressuposições de taxa constante e independência, tem-se que a média e variância da distribuição Poisson são iguais, ou seja, E(Y ij ) = V ar(y ij ) = µ ij. A função de ligação canônica é a logarítimica, dada por: g(µ ij )=ln(µ ij ) = η ij = x ijβ. Logo, a relação da média da variável resposta com seu preditor linear é dada pela seguinte expressão: µ ij = g 1 (x ij β) = ex ij β, (44) em que β = (β 0, β 1,..., β p ) é o vetor de parâmetros de regressão do modelo. A função de ligação logaritmica é apropriada para a distribuição Poisson, pois a mesma garante que os valores previstos para a variável resposta serão não negativos.

41 Estimação de β Conforme denido na pág. 29, tem-se de (14) que A i = diag (v(µ i1 ),..., v(µ it )) e no caso da distribuição Normal, v(µ ij ) = 1, e para o caso da distribuição Poisson, v(µ ij ) = µ ij, em que i = 1,..., n, j = 1,..., t, logo tem-se: Caso - Distribuição Normal: A i = Caso - Distribuição Poisson: t t µ i µ A i = i µ it A matriz de variância-covariância de y i, por denição, é dada por: t t Caso - Distribuição Normal: Ω i = φ 1 A 1 2 i R(α)A 1 2 i, (45) Caso - Distribuição Poisson: Ω i = σ 2 R(α), (46) generalizadas Ω i = A 1 2 i R(α)A 1 2 i. (47) O estimador de β é obtido por meio da solução das equações de estimação n i=1 D i Ω 1 i (y i µ i ) = 0, (48) em que D i = X i Λ i. No caso Normal D i = X i e no caso Poisson D i = X i ex i β, logo o estimador por meio das EEGs de β é a solução da equação n i=1 X i (σ2 R( α)) 1 (y i X i β) = 0 (49) para a distribuição Normal, e

42 41 n i=1 X i ex i β [ A 1 2 i R( α)a 1 2 i ] 1 [ y i e X i β] = 0 (50) para a distribuição Poisson, em que a mesma é uma equação não linear em β, e desta forma para se obter sua solução torna-se necessário a utilização de algum método iterativo, como por exemplo o apresentado em (27). Por meio do processo iterativo (27) β G atinge convergência quando β G ( X W X ) 1 X W z. (51) No caso da distribuição Normal tem-se em que I representa a matriz identidade, W = Λ Ω 1 Λ = I Ω 1 I = σ 2 R( α), (52) z = η + Λ 1 (y µ) = X i β + I 1 (y X i β) = y (53) logo, β G = ( X R( α)x ) 1 X R( α)y. (54) Quando se assume independência nas unidades experimentais, ou seja, R( α) = I obtem-se o estimador de máxima verossimilhança β G = (X X) 1 X y, em que para o conseguir não é necessário recorrer ao processo iterativo (27), tendo em vista que nesse caso β G possui forma analítica. 4.3 Ajuste da superfície de resposta - Modelo de Segunda Ordem Um dos delineamentos frequentemente usados em modelos de segunda ordem é o DCC, sendo este um dos mais populares (KHURI; MUKHOPADHYAY, 2010). Com ns de aplicação foi utilizado como exemplo apenas dados coletados por meio do DCC, logo o modelo abordado nesse trabalho foi o de segunda ordem. Na metodologia tradicional o modelo de segunda ordem nos retorna de imediato a previsão da média, ou seja, ˆµ no ponto estacionário. Porém, quando se está trabalhando com os MLG's o modelo retorna a previsão do preditor linear, nesse caso, ˆη que nem sempre é igual a média prevista, logo é necessário inverter a função de ligação utilizada para se obter ˆµ.

43 42 Não é necessário realizar a inversão da função de ligação apenas quando a mesma for a identidade, ou seja, g(ˆµ) = ˆµ = ˆη, como é o caso da distribuição Normal. Já no caso da distribuição Poisson em que ˆη = ln ˆµ, para se obter ˆµ é necessário aplicar a inversão, ou seja, ˆµ = eˆη. O valor predito em notação matricial utilizando MLG's tem a seguinte estrutura (KHURI, 2001; JOHNSON; MONTGOMERY, 2009): ˆη = g(ˆµ) = ˆβ 0 + x b + x Bx, (55) com x = x 1 x 2. x k k 1 b = ˆβ 1 ˆβ 2. ˆβ k k 1 e B = ˆβ 11 ˆβ ˆβ k1 2 ˆβ12 2 ˆβ ˆβ k2 2 ˆβ 1k 2 ˆβ 2k 2.. ˆβkk, k k O valor esperado na escala original é ˆµ s = g 1 (ˆη s ) = g 1 ( ˆβ x s b). (56) Em relação a distribuição Normal o valor esperado na escala original é equivalente ao descrito em (8). Contudo, está sendo utilizada a transformação raiz quadrada na variável resposta, o valor esperado na escala original ca da seguinte forma: ˆµ s = ˆη 2 s = ( ˆβ x s b ) 2, (57) e em relação a distribuição Poisson o valor esperado na escala original é dado por ˆµ s = eˆηs = e ˆβ x s b. (58) 4.4 Estudo da Variância de ˆµ s Variância do Preditor Linear A variância do preditor linear aplicada no ponto estacionário é dada pela seguinte expressão: V ar(ˆη s ) = V ar(x 0 ˆβ) = x 0 V ar( ˆβ)x 0, (59) em que x 0 = (1, x s1,..., x sk, x 2 s1,..., x 2 sk, x s1x s2,..., x s1 x sk, x s2 x s3,..., x s2 x sk,..., x sk 1 x sk ), x s = (x s1,..., x sk ), ˆβ = ( ˆβ 0, ˆβ 1,..., ˆβ k ) e k é o número de variáveis regressoras.

44 43 No presente trabalho a estimação de β foi realizada por meio das equações de estimação propostas por Liang e Zeger (1986), apresentada no Capítulo Variância da Média Para o cálculo da variância da resposta média estimada no ponto estacionário, V ar(ˆµ s ), foi utilizado o método delta de primeira ordem. O método delta usa uma expansão de Taylor, produzindo uma variância aproximada para uma função não-linear de uma variável aleatória (COX, 1990). Como ˆµ é função de ˆη, pode-se obter sua variância aproximada por meio da relação dada na equação (60), a qual é resultado da aproximação de primeira ordem por série de Taylor de ˆµ, em torno de ˆη (SILVA et al., 2010). ˆµ = g 1 (ˆη) = f(ˆη) = f(η)+f (η) (ˆη η)+o p (.) = f(ˆη) f(η) f (η) (ˆη η) (60) em que f (η) = f(η) η. Aplicando o seguinte produto nos vetores em (60) obtem-se (f(ˆη) f(η)) (f(ˆη) f(η)) f (η) (ˆη η)(ˆη η) f (η), (61) implicando que (ˆµ µ)(ˆµ µ) f (η) (ˆη η)(ˆη η) f (η), (62) e quando é aplicado o operador esperança, obtem-se (EFRON;TIBSHIRANI, 1993) E [ (ˆµ µ)(ˆµ µ) ] f (η) E [ (ˆη η)(ˆη η) ] f (η), (63) logo V ar(ˆµ) f (ˆη) V ar(ˆη)f (ˆη). (64) Portanto, a variância da média no ponto estacionário tem a seguinte expressão: se f (ˆη s ) 0. V ar(ˆµ s ) = f (ˆη s ) V ar( ˆη s )f (ˆη s ), (65)

45 44 No caso da distribuição Normal, como está sendo trabalhado com uma variável transformada, é necessário retornar o valor para a escala original. No caso da transformação raiz quadrada, tem-se a seguinte expressão da variância: V ar(ˆµ s ) = 2ˆη s V ar( ˆη s )2ˆη s = 4(x 0 ˆβ)V ar( ˆη s )(x 0 ˆβ) (66) e no caso da distribuição Poisson, a variância ca da seguinte forma: V ar(ˆµ s ) = e ˆηs V ar( ˆη s )e ˆηs = e x 0 ˆβ V ar( ˆηs )e x 0 ˆβ. (67) 4.5 Intervalos de conança para ˆµ s Intervalo de conança baseado no método delta de 1 a ordem por: O intervalo de conança baseado no método delta de 1 a ordem para µ s é dado IC 100(1 α)% (µ s ) = [ ˆµ s ± z (1 α 2 ) ] Vˆar(ˆµ s ). (68) Esse intervalo de conança é também conhecido como intervalo assintótico, sendo z (1 α 2 ) o quantil de ordem (1 α/2) da distribuição Normal padrão e V ar(ˆµ s ) a variância assintótica de 1 a ordem de ˆµ s (SILVA et al., 2010) Intervalo de conança baseado no método da inversa da função de ligação Lewis et al., (2001) também apresentam um outro procedimento para a construção do intervalo de conança para µ s, baseado na inversa da função de ligação, g 1. Neste caso o intervalo é dado por: IC 100(1 α)% (µ s ) = g 1 [ˆη s ± z (1 α 2 ) ] Vˆar(ˆη s ). (69) Intervalo de conança percentil baseado no bootstrap residual O intervalo de conança bootstrap (EFRON, 1979; EFRON;TIBSHIRANI, 1993) possui vantagens por não utilizar resultados assintóticos para a distribuição dos estimadores. Esse tipo de intervalo é apropriado quando se tem uma amostra pequena, ou quando for crítica a suposição de normalidade. Os passos principais do método bootstrap residual são os seguintes (MARTINEZ- ESPINOSA et al., 2006):

46 Ajustar um modelo de regressão considerando os dados da amostra original e obter os resíduos ordinários ˆɛ i = y i g 1 (x ˆβ), i em que i=1,..., nt, considerando a estrutura longitudinal; 2 - Selecionar uma amostra aleatória de tamanho n, dos resíduos ˆɛ obtidos no passo 1, utilizando reamostragem com reposição, com probabilidade 1/n para cada resíduo selecionado ɛ BR. 3 - Gerar os novos valores de y pela seguinte equação ŷ BR = g 1 (x ˆβ) + ɛ BR, em que ɛ BR é o vetor de resíduos obtidos no passo 2 e ˆβ é um vetor de parâmetros desconhecidos, estimados no passo 1; estimativas de β. 4 - Ajustar o modelo de regressão y BR = g 1 (x β ) + ɛ BR para obter as R é xado em Repetir os passos 1, 2, 3 e 4, R vezes. Geralmente o número de iterações Portanto, um intervalo de conança que se pode obter por meio do bootstrap residual para µ s é o percentil, que é feito por meio da ordenação ˆµ s1 ˆµ s2,..., ˆµ sr, as quais são as respostas médias estimadas no ponto estacionário obtidas durante as R iterações. O intervalo que se obtem é o seguinte: em que α é o nível de signicância. IC 100(1 α)% (µ s ) = [ˆµ s(r+1)(α/2) ; ˆµ s(r+1)(1 α/2) ], (70) Vale ressaltar que os passos apresentados anteriormente são realizados na escala da variável resposta y e não do preditor linear, logo quando se está sendo utilizado MLGs é necessário observar o tipo de função de ligação aplicada no modelo de regressão e se foi feito algum tipo de transformação na variável resposta.

47 46 5 ANÁLISE DOS CONJUNTOS DE DADOS SIMULADOS Neste capítulo são apresentados dois estudos de simulação (um com dois fatores e outro com três) para dois conjuntos de dados de delineamentos compostos centrais, com medidas repetidas no tempo e resposta de contagem. Os dados simulados foram analisados utilizando-se a metodologia descrita nos capítulos anteriores. Foram utilizados o modelo de regressão Poisson com ligação canônica (lnµ = η) e o modelo de regressão Normal com transformação na variável resposta do tipo ( µ = η), para vericar o desempenho dos mesmos por meio da variabilidade da reposta estimada no ponto estacionário. Estrutura da simulação Para a simulação e análise dos conjuntos de dados foi utilizado o software R (R Core Team, 2016), de domínio público, que pode ser obtido em O algoritmo de simulação das variáveis respostas, com distribuição Poisson, foi baseado em Johnson et al (1997). Em ambos cenários, foi utilizado um DCC com: duas (1 a conjunto) e três (2 a conjunto) variáveis regressoras, de forma que nas simulações o DCC se mantém xo. Metodologia de Superfície de Resposta no R No caso da MSR o pacote utilizado foi o rsm (LENTH, 2009). Este pacote fornece funções que nos permitem gerar delineamentos de superfície de resposta, ajustar modelos de superfície de resposta de primeira e de segunda ordem, fazer grácos de superfície, além de aplicar o método da inclinação ascendente e fazer análise canônica. Equações de Estimação Generalizadas no R Já no caso das EEG's foi utilizado o pacote gee, o qual soluciona equações de estimação generalizadas. Existe um outro pacote que também poderia ter sido utilizado para ajustar os modelos de regressão por meio dessa metodologia, que seria o geepack (HOJSGAARD et al., 2006). Porém, por questões de praticidade na resolução de alguns procedimentos relacionados à análise dos dados, o pacote gee se demonstrou uma melhor opção.

48 Modelo com Duas Variáveis Regressoras O conjunto de dados apresentado na Tabela 2 foi gerado por meio de simulação no software R. Trata-se de um conjunto de dados longitudinais, em que o mesmo possui duas variáveis regressoras X 1 e X 2 e uma variável resposta medida em três tempos: Y 1, Y 2 e Y 3. As variáveis regressoras foram geradas formando um delineamento composto central de 12 pontos por meio da função ccd disponível dentro do pacote rsm do R. A variável resposta no tempo 1 (Y 1 ) foi gerada a partir da distribuição Poisson por meio da função rpois que gera números aleatórios dessa distribuição e que está disponível no pacote stats. Para os pontos fatoriais foram gerados quatro números com média igual a 6, para os axiais quatro números com média igual a 4 e para os centrais quatro números com média igual a 10. As variáveis no tempo 2 (Y 2 ) e no tempo 3 (Y 3 ) foram geradas da seguinte forma: Y 2 = Y 1 +Y 22, em que Y 22 P oisson(2) e Y 3 = Y 1 +Y 33, em que Y 33 P oisson(4). Tabela 2: Delineamento composto central de 12 pontos com dados de contagem simulados em três momentos: Y 1, Y 2 e Y 3. Unidade experimental X 1 X 2 Y 1 Y 2 Y , , , ,

49 Análise por tempo O objetivo ao analisar os dados em cada tempo foi de vericar o comportamento da variabilidade dos modelos de regressão Poisson (lnµ = η) e Normal ( µ = η) no ponto estacionário para Y 1, Y 2 e Y 3 separadamente. A Tabela 3 apresenta uma análise descritiva da variável resposta nos tempos 1, 2 e 3. Observou-se nos dados a possibilidade de existência de superdisperção nos três momentos, ou seja, E(Y i ) <Var(Y i ) (BARRON, 1992), para i = 1, 2, 3, que será discutido mais adiante. Vericou-se também que a medida em que o tempo aumenta, a variabilidade dos dados também aumenta e se for observado o mínimo, a mediana e o máximo em cada tempo conclui-se que boa parte da variabilidade dos dados está sendo ocasionada pelos valores dos pontos centrais. Tabela 3: Análise descritiva por tempo (Y 1, Y 2 e Y 3 ) do delineamento composto central de 12 pontos. Análise Y 1 Y 2 Y 3 Mínimo 3,000 4,000 4,000 1 o quartil 4,000 5,750 7,750 Mediana 5,500 6,500 10,000 Média 6,750 8,333 10,920 3 o quartil 7,000 9,000 13,000 Máximo 16,000 18,000 19,000 Variância 18,386 20,606 22,811 A Figura 4 exibe os grácos boxplot nos tempos 1, 2 e 3. Os grácos mostram que existem dois pontos aberrantes nos dados referentes ao tempo 1, um nos dados referentes ao tempo 2 e nenhum nos dados referentes ao tempo 3.

50 49 Figura 4: Grácos Boxplot por tempo (Y 1, Y 2 e Y 3 ) do delineamento composto central de 12 pontos. O modelo de superfície de resposta utilizado para ajuste dos dados foi o de segunda ordem, tendo em vista que o delineamento utilizado foi o composto central. Neste caso os modelos completos, para cada tempo, caram da seguinte forma: Poisson: η i = ln(µ i ) = β 0 + β 1 x i1 + β 2 x i2 + β 11 x 2 i1 + β 22 x 2 i2 + β 12 x i1 x i2 Normal: η i = µ i = β 0 + β 1 x i1 + β 2 x i2 + β 11 x 2 i1 + β 22 x 2 i2 + β 12 x i1 x i2 em que i = 1,..., 12. Para ajustar os modelos por meio do software R (R Core Team, 2016) nos três momentos foi utilizada a função gee que apresenta além do estimador naive o estimador robusto. Algumas informações solicitadas no comando gee são: id: é um vetor que identica os clusters, em que o comprimento deste deve ser igual ao número de observações; data: trata-se do conjunto de dados que está sendo analisado, sendo opcional; family: é a opção em que são identicadas as famílias de distribuições de interesse e suas respectivas funções de ligação. As famílias disponíveis são: Normal, Binomial, Poisson, Gamma e Quasi, porém para a dissertação foram utilizadas apenas as famílias Poisson e Normal; scale.fix e scale.value : a opção scale.fix trata-se de uma variável lógica e

51 50 se for verdade (TRUE) o parâmetro de escala φ é xado no valor de scale.value. No caso da distribuição Poisson é necessário denir φ = 1, e colocar scale.fix = T e scale.value =1, já em relação a distribuição Normal não é necessário xar valor, pois como φ = σ 2, o mesmo precisa ser estimado; corstr: nesta opção pode-se identicar qual o tipo de estrutura de correlação irá ser utilizada. Dentre elas pode-se encontrar: independente ( independence), auto-regressiva ( AR-M) que para ser de ordem 1 deve-se acrescentar o comando Mv= 1, e permutável/uniforme ( exchangeable). Essas foram as estruturas de matriz de correlação de trabalho utilizadas na análise dos dados desse trabalho. Ao ajustar os modelos de segunda ordem de forma completa nos tempos 1, 2 e 3 vericou-se que apenas as variáveis x 2 1 e x 2 2 foram signifcativas a um nível de signicância de 0,05, tanto para o modelo de regressão Poisson, como para o modelo de regressão Normal, utilizando o estimador naive. Quando foi utilizado o estimador robusto, sob as mesmas condições que o estimador anterior, as variáveis x 2 1, x 2 2 e x 1 x 2 foram signicativas nos tempos 1 e 2, já no tempo 3 apenas as variáveis x 2 1 e x 2 2 foram signicativas. A Tabela 4 traz informações acerca dos novos modelos ajustados após a retirada das variáveis que não foram signicativas nos modelos completos para o caso do estimador naive, já a Tabela 5 mostra informações para o caso do estimador robusto. As estimativas dos parâmetros encontram-se na escala do preditor linear η. Pode-se vericar, conforme as Tabelas 4 e 5, que os erros padrão naive e robusto, referentes aos parâmetros estimados, são menores no modelo de regressão Poisson. Para uma melhor vericação dos modelos tornou-se necessário a realização de um diagnóstico, tendo em vista que as Tabelas 4 e 5 apresentam apenas a informação das variáveis que são signcativas para os modelos em análise, além de estimativas dos parâmetros e seus respectivos erros.

52 51 Tabela 4: Estimativa dos parâmetros dos modelos de regressão Poisson e Normal por tempo por meio do estimador naive. Tempo Modelo Parâmetro Estimativa Erro padrão naive P-valor naive Tempo 1 Poisson (lnµ = η) β 0 2, 398 0, 151 < 0, 001 β 11 (x 2 1 ) 0, 433 0, 161 0, 007 β 22 (x 2 2 ) 0, 433 0, 161 0, 007 AIC 59, 799 Normal ( µ = η) β 0 3, 242 0, 267 < 0, 001 β 11 (x 2 1 ) 0, 551 0, 211 0, 009 β 22 (x 2 2 ) 0, 559 0, 211 0, 008 AIC 23, 522 Tempo 2 Poisson (lnµ = η) β 0 2, 584 0, 137 < 0, 001 β 11 (x 2 1 ) 0, 386 0, 142 0, 010 β 22 (x 2 2 ) 0, 428 0, 145 < 0, 001 AIC 60, 008 Normal ( µ = η) β 0 3, 588 0, 233 < 0, 001 β 11 (x 2 1 ) 0, 559 0, 184 0, 002 β 22 (x 2 2 ) 0, 618 0, 184 0, 001 AIC 20, 259 Tempo 3 Poisson (lnµ = η) β 0 2, 773 0, 125 < 0, 001 β 11 (x 2 1 ) 0, 294 0, 121 0, 015 β 22 (x 2 2 ) 0, 354 0, 125 0, 005 AIC 64, 779 Normal ( µ = η) β 0 3, 970 0, 254 < 0, 001 β 11 (x 2 1 ) 0, 511 0, 201 0, 011 β 22 (x 2 2 ) 0, 595 0, 201 0, 003 AIC 22, 373 Na Figura 5 estão apresentados os grácos das funções ajustadas via estimador naive e na Figura 6 estão apresentados os grácos das funções ajustadas por meio do estimador robusto. Ocorreu uma diferença no formato das superfícies de respostas nos tempos 1 e 2 porque no caso do estimador robusto a interação (x 1 x 2 ) foi signicativa nos modelos ajustados, enquanto que no caso do estimador naive não foi. Os parâmetros que formam as funções estimadas foram obtidos usando as equações de estimação generalizadas. O ajuste de modelos por meio das EEG's para da-

53 52 dos em que existe apenas 1 tempo, é equivalente ao ajuste por meio dos modelos lineares generalizados tradicionais, pois neste tipo de caso a matriz de correlação de trabalho se resume a um escalar de valor 1. Figura 5: Superfícies de resposta na escala do preditor linear ˆη referentes aos modelos de regressão Poisson e Normal, ajustados por meio do estimador naive. As superfícies de respostas apresentadas pelas Figuras 5 e 6 mostraram apenas um ponto ótimo em cada função estimada, o que facilitou bastante o processo de otimização. Os grácos exibem que cada superfície possui um ponto de máximo, logo o objetivo na otimização das funções ajustadas, nesse caso, foi encontrar o ponto estacionário em cada tempo considerando o tipo de estimador dos parâmetros do modelo, ou seja, naive e robusto.

54 53 Tabela 5: Estimativa dos parâmetros dos modelos de regressão Poisson e Normal por tempo por meio do estimador robusto. Tempo Modelo Parâmetro Estimativa Erro padrão robusto P-valor robusto Tempo 1 Poisson (lnµ = η) β 0 2, 398 0, 206 < 0, 001 β 11 (x 2 1 ) 0, 442 0, 111 < 0, 001 β 22 (x 2 2 ) 0, 442 0, 124 < 0, 001 β 12 (x 1x 2) 0, 272 0, 070 < 0, 001 AIC 60, 443 Normal ( µ = η) β 0 3, 242 0, 350 < 0, 001 β 11 (x 2 1 ) 0, 551 0, 182 0, 002 β 22 (x 2 2 ) 0, 559 0, 192 0, 004 β 12 (x 1x 2) 0, 274 0, 079 < 0, 001 AIC 24, 027 Tempo 2 Poisson (lnµ = η) β 0 2, 584 0, 159 < 0, 001 β 11 (x 2 1 ) 0, 389 0, 090 < 0, 001 β 22 (x 2 2 ) 0, 432 0, 098 < 0, 001 β 12 (x 1x 2) 0, 171 0, 067 0, 010 AIC 61, 326 Normal ( µ = η) β 0 3, 588 0, 306 < 0, 001 β 11 (x 2 1 ) 0, 559 0, 162 0, 001 β 22 (x 2 2 ) 0, 618 0, 170 < 0, 001 β 12 (x 1x 2) 0, 197 0, 081 0, 015 AIC 21, 262 Tempo 3 Poisson (lnµ = η) Normal ( µ = η) β 0 2, 773 0, 115 < 0, 001 β 11 (x 2 1 ) 0, 294 0, 085 0, 001 β 22 (x 2 2 ) 0, 354 0, 079 < 0, 001 AIC 64, 779 β 0 3, 970 0, 244 < 0, 001 β 11 (x 2 1 ) 0, 511 0, 157 0, 001 β 22 (x 2 2 ) 0, 595 0, 145 < 0, 001 AIC 22, 373

55 54 Figura 6: Superfícies de resposta na escala do preditor linear ˆη referentes aos modelos de regressão Poisson e Normal, ajustados por meio do estimador robusto. As Figuras 7 e 8 tratam dos grácos de probabilidade meio-normal com envelopes simulados feitos tanto para o modelo de regressão Poisson, como para o modelo de regressão Normal nos tempos 1, 2 e 3. Para a construção, usou-se o pacote hnp (MORAL et al., 2017). Tendo em vista que o pacote hnp não está disponível para a função gee e como os tempos foram analisados separadamente, ou seja, de forma independente, os modelos foram ajustados por meio da função glm, que pode ser encontrada no pacote stats e que serve para ajustar modelos lineares generalizados na forma tradicional. As estimativas dos parâmetros são as mesmas se for utilizada a função gee ou a função glm. A única diferença em relação a variabilidade dos parâmetros estimados é porque a função glm não fornece o erro padrão robusto, o qual é fornecido pela função gee. O erro padrão fornecido pela função glm é equivalente ao erro padrão naive fornecido pela função gee. No caso dos modelos ajustados com a distribuição Poisson o parâmetro φ é

56 55 igual a 1, ou seja, neste caso foi admitido a não existência de subdispersão (φ < 1) ou superdispersão (φ > 1) nos dados. Figura 7: Grácos de probabilidade meio-normal com envelopes simulados dos modelos de regressão Poisson e Normal com base no estimador naive. Os grácos das Figuras 7 e 8 demonstraram que os modelos por tempo estão bem ajustados, tanto se for utilizado o modelo de regressão Poisson, como o modelo Normal com transformação na variável resposta, pois os resíduos caram bem distribuídos nas bandas de conança.

57 56 Figura 8: Grácos de probabilidade meio-normal com envelopes simulados dos modelos de regressão Poisson e Normal com base no estimador robusto. A Tabela 6 apresenta uma análise da variabilidade da média no ponto estacionário em cada tempo para os dois modelos de regressão em estudo, considerando os estimadores naive e robusto. De acordo com a tabela os doze modelos ajustados apresentaram o mesmo ponto estacionário, e como se pode vericar o ponto que maximiza todas essas funções é o (0, 000; 0, 000), isto é, o ponto central. Porém, as diferenças ocorreram nas médias estimadas no ponto estacionário e em suas respectivas variâncias. Ao analisar as médias por tempo vericou-se que não houve diferença entre a média do estimador naive com a do estimador robusto, além disso as médias dos dois modelos caram próximas quando comparadas por tempo. Em relação a variabilidade da média no ponto estacionário vericou-se que a variância com base no estimador naive foi inferior à variância com base no estimador robusto, exceto no tempo 3. Já comparando os dois modelos de regressão, observou-se que o modelo de regressão Poisson apresentou menor variabilidade no ponto estacionário do que

58 57 o modelo Normal com transformação na variável resposta, tanto utilizando o estimador naive como o estimador robusto, exceto no tempo 2 quando utilizado o estimador naive. De forma geral, considerando a análise por tempo, pode-se concluir que o modelo de regressão Poisson apresentou resultados melhores do que o modelo de regressão Normal com transformação na variável resposta. Agora serão apresentados os resultados considerando a análise longitudinal dos dados. Tabela 6: Estimativa da resposta (ˆµ s ) no ponto estacionário e variância estimada (método delta), para os modelos Poisson e Normal, em cada tempo. Modelo Tempo Estimador Ponto estacionário Média (ˆµ s) Var(ˆµ s) 1 naive (0, 000; 0, 000) 11, 000 2, 750 robusto (0, 000; 0, 000) 11, 000 5, 125 Poisson (lnµ = η) 2 naive (0, 000; 0, 000) 13, 250 3, 313 robusto (0, 000; 0, 000) 13, 250 4, naive (0, 000; 0, 000) 16, 000 4, 000 robusto (0, 000; 0, 000) 16, 000 3, naive (0, 000; 0, 000) 10, 511 2, 991 robusto (0, 000; 0, 000) 10, 511 5, 141 Normal ( µ = η) 2 naive (0, 000; 0, 000) 12, 875 2, 792 robusto (0, 000; 0, 000) 12, 875 4, naive (0, 000; 0, 000) 15, 761 4, 076 robusto (0, 000; 0, 000) 15, 761 3, 766

59 Análise Longitudinal Nesta subseção serão apresentados os resultados obtidos por meio do ajuste dos modelos, considerando a estrutura longitudinal. Figura 9: Gráco dos pers individuais (a) e perl médio (b) referentes ao delineamento composto central de 12 pontos simulados. Na Figura 9 são apresentados dois grácos que são bastante utilizados na análise inicial de um conjunto de dados com estrutura longitudinal. O gráco (a), de pers individuais, exibe o comportamento de cada unidade experimental (indivíduo) no tempo e o gráco (b), de perl médio da resposta, apresenta a evolução do padrão médio de resposta no tempo. Os modelos completos de segunda ordem que foram ajustados na estrutura longitudinal são os seguintes: Poisson: η ij = ln(µ ij ) = β 0 + β 1 x ij1 + β 2 x ij2 + β 11 x 2 ij1 + β 22 x 2 ij2 + β 12 x ij1 x ij2 Normal: η ij = µ ij = β 0 + β 1 x ij1 + β 2 x ij2 + β 11 x 2 ij1 + β 22 x 2 ij2 + β 12 x ij1 x ij2 em que i = 1,..., 12 e j = 1, 2, 3.

60 59 Tabela 7: Estimativa dos parâmetros dos modelos de regressão Poisson e Normal, na estrutura longitudinal utilizando o estimador naive. Modelo Estrutura de Erro padrão P-valor Parâmetro Estimativa correlação naive naive Independente β 0 2, 596 0, 079 < 0, 001 β 11 (x 2 1 ) 0, 359 0, 080 < 0, 001 β 22 (x 2 2 ) 0, 399 0, 082 < 0, 001 QIC 188, 569 Poisson (lnµ = η) AR - 1 β 0 2, 599 0, 103 < 0, 001 β 11 (x 2 1 ) 0, 354 0, 104 0, 001 β 22 (x 2 2 ) 0, 394 0, 107 < 0, 001 α (correlação) 0, 459 QIC 184, 810 Uniforme β 0 2, 596 0, 099 < 0, 001 β 11 (x 2 1 ) 0, 359 0, 100 < 0, 001 β 22 (x 2 2 ) 0, 399 0, 102 < 0, 001 α (correlação) 0, 284 QIC 185, 274 Independente β 0 3, 600 0, 160 < 0, 001 β 11 (x 2 1 ) 0, 540 0, 126 < 0, 001 β 22 (x 2 2 ) 0, 590 0, 126 < 0, 001 QIC 64, 550 Normal ( µ = η) AR - 1 β 0 3, 602 0, 213 < 0, 001 β 11 (x 2 1 ) 0, 537 0, 168 0, 001 β 22 (x 2 2 ) 0, 585 0, 168 0, 001 α (correlação) 0, 487 QIC 60, 998 Uniforme β 0 3, 600 0, 203 < 0, 001 β 11 (x 2 1 ) 0, 540 0, 161 0, 001 β 22 (x 2 2 ) 0, 590 0, 161 < 0, 001 α (correlação) 0, 312 QIC 61, 405 A Tabela 7 apresenta informações acerca do ajuste dos modelos de regressão Poisson e Normal por meio das equações de estimação generalizadas. A metodologia foi aplicada considerando a estrutura longitudinal para os três tempos. Além disso, a Tabela 7 se refere ao ajuste dos modelos considerando apenas o estimador naive nas três estruturas de matriz de correlação de trabalho, sendo elas: Independente, Auto-regressiva de

61 60 ordem 1(AR-1) e Uniforme. Observou-se no caso do estimador naive que as variáveis x 2 1 e x 2 2 foram signicativas a um nível de signicância de 0,05 para os modelos Poisson e Normal e que os erros padrão associados aos parâmetros estimados no modelo Poisson continuaram inferiores aos do modelo Normal. Figura 10: Grácos de probabilidade meio-normal com envelopes simulados do modelo de regressão Poisson e Normal com estruturas de correlação: Independente, AR-1 e Uniforme com base no estimador naive. A Tabela 7 também contém informações do QIC, em que para os modelos de regressão Poisson e Normal o menor valor do critério está associado à matriz de correlação de trabalho AR-1. De acordo com o valor do QIC a melhor matriz de correlação de trabalho que poderia ser utilizada nos dois modelos é a AR-1. Observando a Figura 10 vericou-se que os resíduos estão bem distribuídos dentro das bandas de conança de 0,95 para os dois modelos, apesar de ocorrerem alguns pontos já no limite das bandas.

62 61 Tabela 8: Estimativa dos parâmetros dos modelos de regressão Poisson e Normal, na estrutura longitudinal utilizando o estimador robusto. Modelo Estrutura de Erro padrão P-valor Parâmetro Estimativa correlação robusto robusto Independente β 0 2, 596 0, 149 < 0, 001 β 2 (x 2) 0, 083 0, 030 0, 005 β 11 (x 2 1 ) 0, 364 0, 080 < 0, 001 β 22 (x 2 2 ) 0, 408 0, 079 < 0, 001 β 12 (x 1x 2) 0, 213 0, 047 < 0, 001 QIC 183, 429 Poisson (lnµ = η) AR - 1 β 0 2, 598 0, 148 < 0, 001 β 2 (x 2) 0, 086 0, 032 0, 007 β 11 (x 2 1 ) 0, 361 0, 080 < 0, 001 β 22 (x 2 2 ) 0, 404 0, 079 < 0, 001 β 12 (x 1x 2) 0, 219 0, 053 < 0, 001 α (correlação) 0, 391 QIC 180, 418 Uniforme β 0 2, 596 0, 149 < 0, 001 β 2 (x 2) 0, 083 0, 030 0, 005 β 11 (x 2 1 ) 0, 364 0, 080 < 0, 001 β 22 (x 2 2 ) 0, 408 0, 079 < 0, 001 β 12 (x 1x 2) 0, 213 0, 047 < 0, 001 α (correlação) 0, 183 QIC 181, 188 Independente β 0 3, 600 0, 291 < 0, 001 β 2 (x 2) 0, 104 0, 039 0, 007 β 11 (x 2 1 ) 0, 540 0, 150 < 0, 001 β 22 (x 2 2 ) 0, 590 0, 149 < 0, 001 β 12 (x 1x 2) 0, 265 0, 056 < 0, 001 QIC 60, 217 Normal ( µ = η) AR - 1 β 0 3, 602 0, 289 < 0, 001 β 2 (x 2) 0, 109 0, 041 0, 008 β 11 (x 2 1 ) 0, 537 0, 149 < 0, 001 β 22 (x 2 2 ) 0, 586 0, 148 < 0, 001 β 12 (x 1x 2) 0, 277 0, 062 < 0, 001 α (correlação) 0, 441 QIC 57, 000 Uniforme β 0 3, 600 0, 291 < 0, 001 β 2 (x 2) 0, 104 0, 039 0, 007 β 11 (x 2 1 ) 0, 540 0, 150 < 0, 001 β 22 (x 2 2 ) 0, 590 0, 149 < 0, 001 β 12 (x 1x 2) 0, 265 0, 056 < 0, 001 α (correlação) 0, 228 QIC 57, 707

63 62 A Tabela 8 demonstra que as variáveis signicativas a um nível de signicância de 0,05 foram x 2, x 2 1, x 2 2 e x 1 x 2 quando utilizado o estimador robusto. Em relação ao valor do QIC os dois modelos também mostraram que a melhor estrutura de correlação foi a AR-1. As superfícies referentes aos modelos ajustados com essa estrutura de correlação estão apresentadas nas Figuras 11 e 12. Figura 11: Superfícies de resposta na escala do preditor linear ˆη referentes aos modelos de regressão Poisson e Normal, ajustados pelo estimador naive e utilizando a estrutura de correlação AR-1. Figura 12: Superfícies de resposta na escala do preditor linear ˆη referentes aos modelos de regressão Poisson e Normal, ajustados pelo estimador robusto e utilizando a estrutura de correlação AR-1.

64 63 Pela Figura 13 pode-se ver, de uma forma geral, que os modelos ajustados utilizando a estrutura de correlação AR-1 apresentaram os resíduos bem distribuídos nas bandas de conança. Figura 13: Grácos de probabilidade meio-normal com envelopes simulados do modelo de regressão Poisson e Normal com estruturas de correlação: Independente, AR-1 e Uniforme com base no estimador robusto. As Figuras 14 e 15 exibem os grácos de resíduos padronizados, bem como os de distância de Cook para os modelos de regressão Poisson e Normal, utilizando os estimadores naive e robusto, e considerando a estrutura de matriz de correlação do tipo AR-1. De acordo com os grácos os resíduos estão bem distribuídos e a distância de Cook apresenta alguns valores que estão um pouco distantes dos demais.

65 64 Figura 14: Resíduo padronizado e Distância de Cook dos modelos de regressão Poisson e Normal com estrutura de correlação AR-1 e utilizando o estimador naive. Figura 15: Resíduo padronizado e Distância de Cook dos modelos de regressão Poisson e Normal com estrutura de correlação AR-1 e utilizando o estimador robusto.

66 65 A Tabela 9 apresenta os resultados em relação à variabilidade da média no ponto estacionário utilizando a estrutura longitudinal. A primeira observação é que o ponto estacionário foi o mesmo apenas nos casos em que foi utilizado o estimador naive. No caso do modelo Poisson a média e a variância da média foi a mesma quando utilizadas as estruturas de correlação independente e uniforme e no caso do modelo Normal ocorreu a mesma coisa que no modelo Poisson. Comparando a variabilidade no ponto estacionário em relação aos dois modelos, foi possível vericar que o modelo Poisson apresentou menor variabilidade em todos os casos. Tabela 9: Estimativa da resposta (ˆµ s ) no ponto estacionário e variância estimada (método delta), para os modelos Poisson e Normal, na estrutura longitudinal. Modelo Estrutura de correlação Estimador Ponto estacionário Média (ˆµ s) Var(ˆµ s) Independente naive (0, 000; 0, 000) 13, 417 1, 118 robusto ( 0, 032; 0, 110) 13, 478 4, 005 Poisson (lnµ = η) AR-1 naive (0, 000; 0, 000) 13, 447 1, 931 robusto ( 0, 035; 0, 116) 13, 509 3, 963 Uniforme naive (0, 000; 0, 000) 13, 417 1, 754 robusto ( 0, 032; 0, 110) 13, 478 4, 005 Independente naive (0, 000; 0, 000) 12, 960 1, 321 robusto ( 0, 023; 0, 093) 12, 995 4, 355 Normal ( µ = η) AR-1 naive (0, 000; 0, 000) 12, 977 2, 348 robusto ( 0, 025; 0, 099) 13, 014 4, 301 Uniforme naive (0, 000; 0, 000) 12, 960 2, 145 robusto ( 0, 023; 0, 093) 12, 995 4, 355 Na Tabela 10 é apresentado um estudo dos intervalos de conança baseado nos métodos: Delta de Primeira Ordem (DPO), Inversa da Função de Ligação (IFL), e Bootstrap Residual (BR). No caso do BR o intervalo construido foi o percentil. Todos

67 66 utilizando-se um nível de conança de 0,95. Tabela 10: Intervalos de Conança de (0,95) para µ s com base nos métodos Delta de Primeira Ordem (DPO), Inversa da Função de Ligação (IFL) e Bootstrap Residual (BR) utilizando a matriz de correlação de trabalho AR-1. Modelo Tipo de intervalo Estimador Intervalo Amplitude do intervalo DPO naive [11, 161; 15, 732] 4, 571 robusto [10, 234; 16, 783] 6, 549 Poisson (lnµ = η) IFL naive [11, 345; 15, 938] 4, 593 robusto [10, 601; 17, 214] 6, 613 BR naive [11, 811; 14, 953] 3, 141 robusto [11, 809; 14, 819] 3, 010 DPO naive [10, 457; 15, 498] 5, 041 robusto [9, 603; 16, 425] 6, 822 Normal ( µ = η) IFL naive [10, 579; 15, 620] 5, 041 robusto [9, 826; 16, 649] 6, 822 BR naive [11, 126; 14, 888] 3, 761 robusto [11, 195; 14, 720] 3, 524 Em relação aos intervalos da Tabela 10, os que apresentaram menor amplitude foram os baseados no método BR, sendo os do modelo Poisson com menor amplitude. De forma geral, o modelo Poisson apresentou menores amplitudes em relação ao modelo Normal.

68 Modelo com Três Variáveis Regressoras O conjunto de dados apresentado na Tabela 11 foi adaptado a partir dos dados disponíveis em Myers et al. (2010). Trata-se de um delineamento composto central de 18 pontos, utilizado para investigar a contagem de defeitos em wafers em um processo de fabricação de semicondutores. A adaptação do conjunto de dados foi feita apenas em relação ao acréscimo das variáveis Y 2 e Y 3, as quais referem-se ao número de defeitos em wafers nos tempos 2 e 3. As variáveis Y 2 e Y 3 foram geradas da seguinte forma: Y 2 = Y 1 + Y 22, em que Y 22 P oisson(2) e Y 3 = Y 1 + Y 33, em que Y 33 P oisson(4). Tabela 11: Número de defeitos em wafers em um processo de fabricação de semicondutores, medido em três momentos. Unidade experimental X 1 X 2 X 3 Y 1 Y 2 Y , , , , , , Fonte: Adaptado de Myers et al. (2010).

69 Análise por tempo Na Tabela 12 estão as informações descritivas dos dados, dentre elas pode-se destacar a média e a variância. Observou-se que ocorre diferença entre as médias e variâncias por tempo, o que aponta a possibilidade de superdispeção nos dados. Tabela 12: Análise descritiva por tempo (Y 1, Y 2 e Y 3 ) do delineamento composto central de 18 pontos. Análise Y 1 Y 2 Y 3 Mínimo 0,000 2,000 2,000 1 o quartil 4,500 8,000 8,250 Mediana 10,500 12,000 13,000 Média 12,610 14,440 16,060 3 o quartil 15,750 17,500 18,750 Máximo 43,000 45,000 48,000 Variância 136, , ,703 A Figura 16 apresenta os grácos boxplot por tempo. Os grácos mostram a existência de dois pontos aberrantes nos tempos 1 e 2 e de um ponto aberrante no tempo 3. Figura 16: Grácos Boxplot por tempo (Y 1, Y 2 e Y 3 ) do delineamento composto central de 18 pontos. O modelo de superfície de resposta utilizado para o ajuste do conjunto de dados da Tabela 11 foi o de segunda ordem, tendo em vista que continuou-se utilizando o delineamento composto central. Os modelos completos, por tempo, caram da seguinte forma:

70 69 Poisson: η i = ln(µ i ) = β 0 + β 1 x i1 + β 2 x i2 + β 3 x i3 + β 11 x 2 i1 + β 22 x 2 i2 + β 33 x 2 i3 + β 12 x i1 x i2 + β 13 x i1 x i3 + β 23 x i2 x i3 Normal: η i = µ i = β 0 + β 1 x i1 + β 2 x i2 + β 3 x i3 + β 11 x 2 i1 + β 22 x 2 i2 + β 33 x 2 i3 + β 12 x i1 x i2 + β 13 x i1 x i3 + β 23 x i2 x i3 em que i = 1,..18. De acordo com a Tabela 13, no ajuste dos dois modelos completos por tempo e utilizando o estimador naive, o modelo Poisson apresentou as variáveis x 1, x 2, x 3, x 2 2 e x 1 x 2 como sendo signicativas a um nível de signicância de 0,05 nos tempos 1, 2 e 3. Para o modelo Normal, o mesmo apresentou as variáveis x 1, x 2, x 3, x 2 2 e x 1 x 2 como sendo signicativas a um nível de signicância de 0,05 nos tempo 1 e 3 e as variáveis x 1, x 2, x 3, x 2 2, x 1 x 2 e x 2 x 3 no tempo 2. De acordo com a Tabela 14, ao ajustar os dois modelos completos por tempo e utilizando o estimador robusto, o modelo Poisson apresentou as variáveis x 1, x 2, x 3, x 2 2 e x 1 x 2 como sendo signicativas a um nível de signicância de 0,05 no tempo 1, as variáveis x 1, x 2, x 3, x 2 2, x 1 x 2, x 1 x 3 e x 2 x 3 no tempo 2 e as variáveis x 1, x 2, x 3, x 2 1, x 2 2 e x 1 x 2 no tempo 3, no caso do modelo Normal, o mesmo apresentou as variáveis x 1, x 2, x 3, x 2 2, x 1 x 2 e x 2 x 3 como sendo signicativas a um nível de signicância de 0,05 no tempo 1, as variáveis x 1, x 2, x 3, x 2 2, x 2 3, x 1 x 2 e x 2 x 3 no tempo 2 e as variáveis x 1, x 2, x 3, x 2 1, x 2 2 e x 1 x 2 no tempo 3. Comparando os erros padrão naive e robusto por modelo ajustado, pode-se observar nas Tabelas 13 e 14 que o erro padrão robusto apresentou menores valores em relação ao naive em quase todos os parâmetros dos modelos. As Figuras 17 e 18 exibem os grácos de probabilidade meio-normal dos modelos Poisson e Normal por tempo. O gráco (c) da Tabela 18 demonstra que o modelo Poisson apresentou alguns resíduos fora das bandas de conança. O ajuste pelo modelo Poisson pode não ter se apresentado tão adequado aos dados devido a uma possível superdispersão existente no conjunto de dados. Como visto anteriormente, na Tabela 12, a média e a variância estão bem distantes uma da outra, o que de certa forma compromete a exigência do modelo de igualdade das duas medidas quando se utiliza o modelo Poisson.

71 70 Tabela 13: Estimativa dos parâmetros dos modelos de regressão Poisson e Normal por tempo por meio do estimador naive. Tempo Modelo Parâmetro Estimativa Erro padrão naive P-valor naive Tempo 1 Poisson (lnµ = η) β 0 1, 929 0, 114 < 0, 001 β 1 (x 1 ) 0, 610 0, 098 < 0, 001 β 2 (x 2 ) 0, 703 0, 100 < 0, 001 β 3 (x 3 ) 0, 353 0, 084 < 0, 001 β 22 (x 2 2 ) 0, 247 0, 076 0, 001 β 12 (x 1 x 2 ) 0, 521 0, 120 < 0, 001 AIC 94, 526 Normal ( µ = η) β 0 2, 607 0, 116 < 0, 001 β 1 (x 1 ) 0, 894 0, 100 < 0, 001 β 2 (x 2 ) 1, 194 0, 100 < 0, 001 β 3 (x 3 ) 0, 568 0, 100 < 0, 001 β 22 (x 2 2 ) 0, 693 0, 096 < 0, 001 β 12 (x 1 x 2 ) 0, 732 0, 132 < 0, 001 AIC 22, 361 Tempo 2 Poisson (lnµ = η) β 0 2, 196 0, 099 < 0, 001 β 1 (x 1 ) 0, 493 0, 085 < 0, 001 β 2 (x 2 ) 0, 554 0, 082 < 0, 001 β 3 (x 3 ) 0, 302 0, 076 < 0, 001 β 22 (x 2 2 ) 0, 242 0, 067 < 0, 001 β 12 (x 1 x 2 ) 0, 398 0, 105 < 0, 001 AIC 93, 732 Normal ( µ = η) β 0 3, 047 0, 073 < 0, 001 β 1 (x 1 ) 0, 756 0, 063 < 0, 001 β 2 (x 2 ) 1, 016 0, 063 < 0, 001 β 3 (x 3 ) 0, 477 0, 063 < 0, 001 β 22 (x 2 2 ) 0, 621 0, 061 < 0, 001 β 12 (x 1 x 2 ) 0, 568 0, 084 < 0, 001 β 23 (x 2 x 3 ) 0, 361 0, 084 < 0, 001 AIC 6, 280 Tempo 3 Poisson (lnµ = η) β 0 2, 366 0, 091 < 0, 001 β 1 (x 1 ) 0, 404 0, 077 < 0, 001 β 2 (x 2 ) 0, 471 0, 072 < 0, 001 β 3 (x 3 ) 0, 263 0, 072 < 0, 001 β 22 (x 2 2 ) 0, 250 0, 061 < 0, 001 β 12 (x 1 x 2 ) 0, 266 0, 095 0, 005 AIC 97, 706 Normal ( µ = η) β 0 3, 273 0, 113 < 0, 001 β 1 (x 1 ) 0, 673 0, 098 < 0, 001 β 2 (x 2 ) 0, 965 0, 098 < 0, 001 β 3 (x 3 ) 0, 507 0, 098 < 0, 001 β 22 (x 2 2 ) 0, 649 0, 094 < 0, 001 β 12 (x 1 x 2 ) 0, 367 0, 129 0, 004 AIC 21, 568

72 71 Tabela 14: Estimativa dos parâmetros dos modelos de regressão Poisson e Normal por tempo por meio do estimador robusto. Tempo Modelo Parâmetro Estimativa Erro padrão robusto P-valor robusto Tempo 1 Poisson (lnµ = η) β 0 1, 929 0, 085 < 0, 001 β 1 (x 1 ) 0, 610 0, 083 < 0, 001 β 2 (x 2 ) 0, 703 0, 108 < 0, 001 β 3 (x 3 ) 0, 353 0, 073 < 0, 001 β 22 (x 2 2 ) 0, 247 0, 074 0, 001 β 12 (x 1 x 2 ) 0, 521 0, 116 < 0, 001 AIC 94, 526 Normal ( µ = η) β 0 2, 607 0, 077 < 0, 001 β 1 (x 1 ) 0, 894 0, 060 < 0, 001 β 2 (x 2 ) 1, 194 0, 064 < 0, 001 β 3 (x 3 ) 0, 568 0, 063 < 0, 001 β 22 (x 2 2 ) 0, 693 0, 048 < 0, 001 β 12 (x 1 x 2 ) 0, 732 0, 103 < 0, 001 β 23 (x 2 x 3 ) 0, 243 0, 103 0, 019 AIC 18, 420 Tempo 2 Poisson (lnµ = η) β 0 2, 193 0, 041 < 0, 001 β 1 (x 1 ) 0, 483 0, 037 < 0, 001 β 2 (x 2 ) 0, 537 0, 041 < 0, 001 β 3 (x 3 ) 0, 245 0, 040 < 0, 001 β 22 (x 2 2 ) 0, 247 0, 031 < 0, 001 β 12 (x 1 x 2 ) 0, 423 0, 045 < 0, 001 β 13 (x 1 x 3 ) 0, 095 0, 046 0, 038 β 23 (x 2 x 3 ) 0, 165 0, 037 < 0, 001 AIC 94, 766 Normal ( µ = η) β 0 2, 998 0, 050 < 0, 001 β 1 (x 1 ) 0, 756 0, 049 < 0, 001 β 2 (x 2 ) 1, 016 0, 051 < 0, 001 β 3 (x 3 ) 0, 477 0, 050 < 0, 001 β 22 (x 2 2 ) 0, 632 0, 031 < 0, 001 β 33 (x 2 3 ) 0, 053 0, 027 0, 047 β 12 (x 1 x 2 ) 0, 568 0, 084 < 0, 001 β 23 (x 2 x 3 ) 0, 361 0, 084 < 0, 001 AIC 7, 049 Tempo 3 Poisson (lnµ = η) β 0 2, 289 0, 069 < 0, 001 β 1 (x 1 ) 0, 376 0, 048 < 0, 001 β 2 (x 2 ) 0, 466 0, 037 < 0, 001 β 3 (x 3 ) 0, 267 0, 034 < 0, 001 β 11 (x 2 1 ) 0, 077 0, 039 0, 046 β 22 (x 2 2 ) 0, 274 0, 032 < 0, 001 β 12 (x 1 x 2 ) 0, 253 0, 057 < 0, 001 AIC 98, 720 Normal ( µ = η) β 0 3, 123 0, 122 < 0, 001 β 1 (x 1 ) 0, 673 0, 060 < 0, 001 β 2 (x 2 ) 0, 965 0, 057 < 0, 001 β 3 (x 3 ) 0, 507 0, 059 < 0, 001 β 11 (x 2 1 ) 0, 162 0, 062 0, 009 β 22 (x 2 2 ) 0, 680 0, 059 < 0, 001 β 12 (x 1 x 2 ) 0, 367 0, 090 < 0, 001 AIC 18, 670

73 72 Figura 17: Grácos de probabilidade meio-normal com envelopes simulados dos modelos de regressão: Poisson e Normal com base no estimador naive. Figura 18: Grácos de probabilidade meio-normal com envelopes simulados dos modelos de regressão: Poisson e Normal com base no estimador robusto.

74 73 A Tabela 15 apresenta as estatísticas referentes à variabilidade da média no ponto estacionário por tempo. No caso do modelo Poisson, as médias foram iguais apenas no tempo 1 quando comparadas com base nos estimadores naive e robusto, além disso observou-se um crescimento na média, a medida em que o tempo aumenta, quando utilizado o estimador naive e um decrescimento quando utilizado o estimador robusto. No caso do modelo Normal ocorreram diferenças nas médias em todos os casos e um crescimento na média, a medida em que o tempo aumenta apenas em relação aos tempos 1 e 3, quando utilizado o estimador naive e um decrescimento quando utilizado o estimador robusto em relação a todos os tempos. Tratando-se da variabilidade no ponto estacionário, pode-se observar que o modelo Poisson apresentou menor variabiliade em relação ao modelo Normal nos tempos 1 e 3 quando utilizado o estimador naive e nos tempos 2 e 3 quando utilizado o estimador robusto. Em todos os demais casos, o modelo Normal apresentou menores variabilidades. Tabela 15: Estimativa da resposta ( ˆµ s ) no ponto estacionário e variância estimada (método delta), para os modelos Poisson e Normal, em cada tempo. Modelo Tempo Estimador Ponto estacionário Média (ˆµ s) Var(ˆµ s) 1 naive (2, 461; 1, 171; 0, 000) 22, , 292 robusto (2, 461; 1.171; 0, 000) 22, , 291 Poisson (lnµ = η) 2 naive (2, 898; 1, 238; 0, 000) 25, , 377 robusto ( 1, 885; 0.401; 6, 894) 2, 195 3, naive (4, 610; 1, 515; 0, 000) 38, , 322 robusto ( 15, 566; 8, 018; 0, 000) 0, 082 1, naive (3, 942; 1, 221; 0, 000) 25, , 020 robusto (2, 950; 0, 868; 0, 978) 17, 347 8, 515 Normal ( µ = η) 2 naive (2, 157; 0, 567; 1, 371) 14, 610 2, 680 robusto ( 1, 016; 1, 330; 9, 064) 1, , naive (9, 098; 1, 831; 0, 000) 52, , 596 robusto ( 4, 151; 1, 830; 0, 000) 0, 711 5, 337

75 74 A Figura 19 apresenta os grácos das superfícies de resposta no tempo 3, considerando o estimador naive. Os grácos foram feitos xando-se um valor da variável regressora referente ao ponto estacionário apresentado na Tabela 15. Figura 19: Superfícies de resposta na escala do preditor linear ˆη referentes aos modelos de regressão Poisson e Normal, ajustados com base no estimador naive no Tempo 3.

76 75 A Figura 20 expõe os grácos das superfícies de resposta no tempo 3, considerando o estimador robusto. Os grácos foram feitos xando-se um valor da variável regressora referente ao ponto estacionário apresentado na Tabela 15. Figura 20: Superfícies de resposta na escala do preditor linear ˆη referentes aos modelos de regressão Poisson e Normal, ajustados por meio do estimador robusto no Tempo 3.

Exemplos Equações de Estimação Generalizadas

Exemplos Equações de Estimação Generalizadas Exemplos Equações de Estimação Generalizadas Bruno R. dos Santos e Gilberto A. Paula Departamento de Estatística Universidade de São Paulo, Brasil giapaula@ime.usp.br Modelos Lineares Generalizados dos

Leia mais

Modelos Lineares Generalizados

Modelos Lineares Generalizados Modelos Lineares Generalizados Emilly Malveira de Lima Análise de Dados Categóricos Universidade Federal de Minas Gerais - UFMG 10 de Maio de 2018 Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 1 / 20

Leia mais

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semana Conteúdo 1 Apresentação da disciplina. Princípios de modelos lineares

Leia mais

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão Ricardo Alves de Olinda Universidade Estadual da Paraíba - UEPB Centro de Ciências e Tecnologia - CCT Departamento de Estatística

Leia mais

MAE Modelos Lineares Generalizados 2 o semestre 2017

MAE Modelos Lineares Generalizados 2 o semestre 2017 MAE5763 - Modelos Lineares Generalizados 2 o semestre 2017 Prof. Gilberto A. Paula 3 a Lista de Exercícios 1. Supor y i ind FE(µ, φ i ) com φ i = α + γz i, para i = 1,..., n. Como ca a matriz modelo Z?

Leia mais

Disciplina de Modelos Lineares Professora Ariane Ferreira

Disciplina de Modelos Lineares Professora Ariane Ferreira Disciplina de Modelos Lineares 2012-2 Regressão Logística Professora Ariane Ferreira O modelo de regressão logístico é semelhante ao modelo de regressão linear. No entanto, no modelo logístico a variável

Leia mais

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Erica Castilho Rodrigues 23 de Maio de 207 Introdução 2 3 Vimos como encontrar o EMV usando algoritmos numéricos. Duas possibilidades:

Leia mais

Análise de Dados Longitudinais Aula

Análise de Dados Longitudinais Aula 1/20 Análise de Dados Longitudinais Aula 13.08.2018 José Luiz Padilha da Silva - UFPR www.docs.ufpr.br/ jlpadilha 2/20 Sumário 1 Modelos Marginais 2 3/20 Modelos Marginais Modelos Marginais para Dados

Leia mais

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná Quantis residuais Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná Orientador: Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Resumo Uma etapa importante

Leia mais

Planejamento e Otimização de Experimentos

Planejamento e Otimização de Experimentos Planejamento e Otimização de Experimentos Metodologia de Superfície de Resposta e Simplex Prof. Dr. Anselmo E de Oliveira anselmo.quimica.ufg.br anselmo.disciplinas@gmail.com Visão geral técnicas matemáticas

Leia mais

Análise de Dados Longitudinais Aula

Análise de Dados Longitudinais Aula 1/35 Análise de Dados Longitudinais Aula 08.08.2018 José Luiz Padilha da Silva - UFPR www.docs.ufpr.br/ jlpadilha 2/35 Sumário 1 Revisão para dados transversais 2 Como analisar dados longitudinais 3 Perspectiva

Leia mais

Aula 2 Uma breve revisão sobre modelos lineares

Aula 2 Uma breve revisão sobre modelos lineares Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar

Leia mais

Transformações e Ponderação para corrigir violações do modelo

Transformações e Ponderação para corrigir violações do modelo Transformações e Ponderação para corrigir violações do modelo Diagnóstico na análise de regressão Relembrando suposições Os erros do modelo tem média zero e variância constante. Os erros do modelo tem

Leia mais

4 Modelos Lineares Generalizados

4 Modelos Lineares Generalizados 4 Modelos Lineares Generalizados Neste capítulo, serão apresentados arcabouços teóricos dos modelos lineares generalizados (MLGs) e como casos particulares desses modelos são aplicáveis ao problema da

Leia mais

Modelagem da estrutura de covariância na análise de medidas repetidas

Modelagem da estrutura de covariância na análise de medidas repetidas Modelagem da estrutura de covariância na análise de medidas repetidas Marisol García Peña Sergio Arciniegas Alarcón Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz Departamento

Leia mais

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ-13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 e 16 Introdução à probabilidade (eventos,

Leia mais

3 Modelos Comparativos: Teoria e Metodologia

3 Modelos Comparativos: Teoria e Metodologia 3 Modelos Comparativos: Teoria e Metodologia Para avaliar o desempenho do modelo STAR-Tree, foram estimados os modelos Naive, ARMAX e Redes Neurais. O ajuste dos modelos ARMAX e das redes neurais foi feito

Leia mais

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9 em Econometria Departamento de Economia Pontifícia Universidade Católica do Rio de Janeiro Aula 9 Data Mining Equação básica: Amostras finitas + muitos modelos = modelo equivocado. Lovell (1983, Review

Leia mais

Universidade Federal de Lavras

Universidade Federal de Lavras Universidade Federal de Lavras Departamento de Estatística Prof. Daniel Furtado Ferreira 6 a Lista de Exercícios Teoria da Estimação pontual e intervalar 1) Marcar como verdadeira ou falsa as seguintes

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS fonte de graus de soma de quadrado variação liberdade quadrados médio teste F regressão 1 1,4 1,4 46,2 resíduo 28 0,8 0,03 total 2,2 A tabela de análise de variância (ANOVA) ilustrada acima resulta de

Leia mais

Planejamento e Otimização de Experimentos Métodos de Superfície de Resposta

Planejamento e Otimização de Experimentos Métodos de Superfície de Resposta Planejamento e Otimização de Experimentos Métodos de Superfície de Resposta Prof. Dr. Anselmo E de Oliveira www.quimica.ufg.br/docentes/anselmo elcana@quimica.ufg.br Visão geral técnicas matemáticas estatísticas

Leia mais

Ralph S. Silva

Ralph S. Silva ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S Silva http://wwwimufrjbr/ralph/multivariadahtml Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Revisão:

Leia mais

Análise de Regressão EST036

Análise de Regressão EST036 Análise de Regressão EST036 Michel Helcias Montoril Instituto de Ciências Exatas Universidade Federal de Juiz de Fora Regressão sem intercepto; Formas alternativas do modelo de regressão Regressão sem

Leia mais

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42 CE062c - GAMLSS Silva, J.P; Taconeli, C.A. 09 de outubro, 2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42 Por que GAMLSS? Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro,

Leia mais

Multicolinariedade e Autocorrelação

Multicolinariedade e Autocorrelação Multicolinariedade e Autocorrelação Introdução Em regressão múltipla, se não existe relação linear entre as variáveis preditoras, as variáveis são ortogonais. Na maioria das aplicações os regressores não

Leia mais

Exemplo Ataques Epilépticos

Exemplo Ataques Epilépticos Exemplo Ataques Epilépticos Gilberto A. Paula Departamento de Estatística IME-USP, Brasil giapaula@ime.usp.br 2 o Semestre 2015 G. A. Paula (IME-USP) Ataques Epilépticos 2 o Semestre 2015 1 / 20 Ataques

Leia mais

Diagnóstico para modelos lineares generalizados para dados com medidas repetidas e valores faltantes. Lucas Petri Damiani

Diagnóstico para modelos lineares generalizados para dados com medidas repetidas e valores faltantes. Lucas Petri Damiani Diagnóstico para modelos lineares generalizados para dados com medidas repetidas e valores faltantes Lucas Petri Damiani Dissertação apresentada ao Instituto de Matemática e Estatística da Universidade

Leia mais

Inferência Estatistica

Inferência Estatistica Inferência Estatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Modelos e Inferência Um modelo é uma simplificação da realidade (e alguns

Leia mais

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão Linear Simples - Análise de Resíduos Modelos de Regressão Linear Simples - Análise de Resíduos Erica Castilho Rodrigues 1 de Setembro de 2014 3 O modelo de regressão linear é dado por Y i = β 0 + β 1 x i + ɛ i onde ɛ i iid N(0,σ 2 ). O erro

Leia mais

Modelos Lineares Generalizados - Componentes do Modelo

Modelos Lineares Generalizados - Componentes do Modelo Modelos Lineares Generalizados - Componentes do Modelo Erica Castilho Rodrigues 01 de Abril de 2014 3 Vejamos agora quais as componentes de um Modelo Linear Generalizado. Temos um conjunto de variáveis

Leia mais

Distribuição Amostral e Estimação Pontual de Parâmetros

Distribuição Amostral e Estimação Pontual de Parâmetros Roteiro Distribuição Amostral e Estimação Pontual de Parâmetros 1. Introdução 2. Teorema Central do Limite 3. Conceitos de Estimação Pontual 4. Métodos de Estimação Pontual 5. Referências População e Amostra

Leia mais

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco AULA 1: Problemas Computacionais em Inferência Estatística.

Leia mais

Análise de Dados Longitudinais Modelos Lineares Generalizados Longitudinais

Análise de Dados Longitudinais Modelos Lineares Generalizados Longitudinais 1/55 Análise de Dados Longitudinais Modelos Lineares Generalizados Longitudinais Enrico A. Colosimo-UFMG www.est.ufmg.br/ enricoc 2/55 Respostas Longitudinal Não-Gaussiana 1 Y ij, i = 1,..., N; j = 1,...,

Leia mais

Exemplo Placas Dentárias

Exemplo Placas Dentárias Exemplo Placas Dentárias Gilberto A. Paula Departamento de Estatística IME-USP, Brasil giapaula@ime.usp.br 2 o Semestre 2016 G. A. Paula (IME-USP) Placas Dentárias 2 o Semestre 2016 1 / 20 Placas Dentárias

Leia mais

Análise de Dados Categóricos

Análise de Dados Categóricos 1/43 Análise de Dados Categóricos Modelo de Regressão de Poisson Enrico A. Colosimo/UFMG http://www.est.ufmg.br/ enricoc/ Departamento de Estatística Universidade Federal de Minas Gerais 2/43 Revisão:

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES 1 Os modelos lineares generalizados, propostos originalmente em Nelder e Wedderburn (1972), configuram etensões dos modelos lineares clássicos e permitem analisar a

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS 2003 2004 2005 2006 2007 2008 2009 2010 X 39,0 39,5 39,5 39,0 39,5 41,5 42,0 42,0 Y 46,5 65,5 86,0 100,0 121,0 150,5 174,0 203,0 A tabela acima mostra as quantidades, em milhões

Leia mais

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão Linear Simples - Análise de Resíduos 1 Modelos de Regressão Linear Simples - Análise de Resíduos Erica Castilho Rodrigues 27 de Setembro de 2016 2 3 O modelo de regressão linear é dado por 3 O modelo de regressão linear é dado por Y i = β

Leia mais

RESOLUÇÃO Nº 01/2016

RESOLUÇÃO Nº 01/2016 Legislações Complementares: Resolução Nº 02/2016 Colegiado DEst Resolução Nº 03/2016 Colegiado DEst Resolução Nº 01/2017 Colegiado DEst RESOLUÇÃO Nº 01/2016 O Departamento de Estatística, tendo em vista

Leia mais

Modelo de Regressão Múltipla

Modelo de Regressão Múltipla Modelo de Regressão Múltipla Modelo de Regressão Linear Simples Última aula: Y = α + βx + i i ε i Y é a variável resposta; X é a variável independente; ε representa o erro. 2 Modelo Clássico de Regressão

Leia mais

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS 1 Diversas distribuições podem ser consideradas para a modelagem de dados positivos com distribuição contínua e assimétrica, como, por exemplo, as

Leia mais

Tópicos de Estatística Espacial Geoestatística

Tópicos de Estatística Espacial Geoestatística Tópicos de Estatística Espacial Geoestatística Anderson Castro Soares de Oliveira Geoestatística A geoestatística é uma análise espacial que considera que a variável em estudo se distribui continuamente

Leia mais

Ajustamento de Observações

Ajustamento de Observações Ajustamento de Observações Teoria dos Erros Prof. Dr. Marcos Aurélio Basso IFSULDEMINAS Campus Incondentes MG Teoria dos Erros - Introdução Observações e erros de observação; Factores que caracterizam

Leia mais

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semana Conteúdo 1 Apresentação da disciplina. Princípios de modelos lineares

Leia mais

Análise de dados em Geociências

Análise de dados em Geociências Análise de dados em Geociências Regressão Susana Barbosa Mestrado em Ciências Geofísicas 2014-2015 Resumo Introdução Regressão linear dados independentes séries temporais Regressão de quantis Regressão

Leia mais

Regressão de Poisson e parentes próximos

Regressão de Poisson e parentes próximos Janeiro 2012 Família Exponencial Seja Y uma variável aleatória. A distribuição de probabilidade de Y pertence à família exponencial se a sua função densidade de probabilidade é da forma ( ) yθ b(θ) f (y

Leia mais

5.3 Experimentos fatoriais a dois fatores. Ambos os fatores são supostos fixos e os efeitos de tratamento são definidos como desvios da média tal que

5.3 Experimentos fatoriais a dois fatores. Ambos os fatores são supostos fixos e os efeitos de tratamento são definidos como desvios da média tal que 5. Experimentos Fatoriais 5.3 Experimentos fatoriais a dois fatores. Modelo de Efeitos Y ijk = µ+τ i +β j +(τβ) ij +ɛ ijk, i = 1, 2,..., a j = 1, 2,..., b k = 1, 2,..., n Ambos os fatores são supostos

Leia mais

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto Capítulo 2 Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha Flávio Fogliatto 1 Ajustes de distribuições Em estudos de confiabilidade, dados são amostrados a partir de uma população

Leia mais

Modelo de regressão Beta

Modelo de regressão Beta Modelo de regressão Beta Fernando Lucambio Pérez Departamento de Estatística Universidade Federal do Paraná Agosto de 2004 1 Consideremos uma situação em que a variável resposta contínua é restrita ao

Leia mais

Aplicação dos modelos lineares generalizados na análise do

Aplicação dos modelos lineares generalizados na análise do Aplicação dos modelos lineares generalizados na análise do número de ácaros Ana Paula Coelho Madeira Silva 12 Fabrício Oliveira Fernandes 12 Marcos Antonio Matiello Fadini 12 1 Introdução O estudo das

Leia mais

Modelo de regressão estável aplicado a econometria

Modelo de regressão estável aplicado a econometria Modelo de regressão estável aplicado a econometria financeira Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br 1 Objetivos

Leia mais

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Regressão. David Menotti.

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Regressão. David Menotti. Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Regressão David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Regressão Linear ( e Múltipla ) Não-Linear ( Exponencial / Logística

Leia mais

)XQGDPHQWRVGHSUREDELOLGDGHHHVWDWtVWLFD

)XQGDPHQWRVGHSUREDELOLGDGHHHVWDWtVWLFD )XQGDPHQWRVGHUREDELOLGDGHHHVWDWtVWLFD,QWURGXomR A história da estatística pode ser dividida em três fases. De acordo com PEANHA (00), a estatística inicialmente não mantinha nenhuma relação com a probabilidade,

Leia mais

Coeficiente de determinação R 2 no modelo de regressão linear normal

Coeficiente de determinação R 2 no modelo de regressão linear normal Coeficiente de determinação R 2 no modelo de regressão linear normal Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br

Leia mais

Mais Informações sobre Itens do Relatório

Mais Informações sobre Itens do Relatório Mais Informações sobre Itens do Relatório Amostra Tabela contendo os valores amostrados a serem utilizados pelo método comparativo (estatística descritiva ou inferencial) Modelos Pesquisados Tabela contendo

Leia mais

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012 1 AULA 09 Regressão Ernesto F. L. Amaral 17 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução à

Leia mais

Planejamento de Experimentos

Planejamento de Experimentos Planejamento de Experimentos 1 6.4 Os Modelos fatoriais 2 k : o caso geral. O modelo estatístico para um plano 2 k inclui k ( k 2 ( k ) ) efeitos principais efeitos de interação de ordem 2 efeitos de interação

Leia mais

Análise de Regressão Linear Simples e

Análise de Regressão Linear Simples e Análise de Regressão Linear Simples e Múltipla Carla Henriques Departamento de Matemática Escola Superior de Tecnologia de Viseu Introdução A análise de regressão estuda o relacionamento entre uma variável

Leia mais

AULA 11 - Normalidade e Inferência em Regressão Múltipla - Parte 1

AULA 11 - Normalidade e Inferência em Regressão Múltipla - Parte 1 AULA 11 - Normalidade e Inferência em Regressão Múltipla - Parte 1 Susan Schommer Econometria I - IE/UFRJ Distribuições amostrais dos estimadores MQO Nas aulas passadas derivamos o valor esperado e variância

Leia mais

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semana Conteúdo 1 Apresentação da disciplina. Princípios de modelos lineares

Leia mais

Distribuição Amostral e Estimação Pontual de Parâmetros

Distribuição Amostral e Estimação Pontual de Parâmetros Roteiro Distribuição Amostral e Estimação Pontual de Parâmetros 1. Introdução 2. Teorema Central do Limite 3. Conceitos de Estimação Pontual 4. Métodos de Estimação Pontual 5. Referências Estatística Aplicada

Leia mais

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística Introdução ao Planejamento e Análise Estatística de Experimentos Capítulo 3 Introdução à Probabilidade e à Inferência Estatística Introdução ao Planejamento e Análise Estatística de Experimentos Agora,

Leia mais

Aula 2. ESTATÍSTICA E TEORIA DAS PROBABILIDADES Conceitos Básicos

Aula 2. ESTATÍSTICA E TEORIA DAS PROBABILIDADES Conceitos Básicos Aula 2 ESTATÍSTICA E TEORIA DAS PROBABILIDADES Conceitos Básicos 1. DEFINIÇÕES FENÔMENO Toda modificação que se processa nos corpos pela ação de agentes físicos ou químicos. 2. Tudo o que pode ser percebido

Leia mais

Cap. 4 - Estimação por Intervalo

Cap. 4 - Estimação por Intervalo Cap. 4 - Estimação por Intervalo Amostragem e inferência estatística População: consiste na totalidade das observações em que estamos interessados. Nº de observações na população é denominado tamanho=n.

Leia mais

Modelo marginal de odds proporcionais para dados longitudinais: um estudo de simulação

Modelo marginal de odds proporcionais para dados longitudinais: um estudo de simulação Modelo marginal de odds proporcionais para dados longitudinais: um estudo de simulação Nívea B. da Silva 1 Enrico A. Colosimo 2 Leila A. F. Amorim 3 1 Introdução Nos últimos anos muitas metodologias têm

Leia mais

NOÇÕES SOBRE EXPERIMENTOS FATORIAIS

NOÇÕES SOBRE EXPERIMENTOS FATORIAIS 3 NOÇÕES SOBRE EXPERIMENTOS FATORIAIS Planejamento de Experimentos Design of Experiments - DOE Em primeiro lugar devemos definir o que é um experimento: Um experimento é um procedimento no qual alterações

Leia mais

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia ROTEIRO 1. Introdução; DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL. Teorema Central do Limite; 3. Conceitos de estimação pontual; 4. Métodos de estimação pontual; 5. Referências. 1 POPULAÇÃO E AMOSTRA População:

Leia mais

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo 1 Modelos Lineares Generalizados - Verificação do Ajuste do Modelo Erica Castilho Rodrigues 9 de Abril de 2015 2 3 Função Deviance Podemos ver o ajuste de um modelo a um conjunto de dados como: uma forma

Leia mais

3. Estimação pontual USP-ICMC-SME. USP-ICMC-SME () 3. Estimação pontual / 25

3. Estimação pontual USP-ICMC-SME. USP-ICMC-SME () 3. Estimação pontual / 25 3. Estimação pontual USP-ICMC-SME 2013 USP-ICMC-SME () 3. Estimação pontual 2013 1 / 25 Roteiro Formulação do problema. O problema envolve um fenômeno aleatório. Interesse em alguma característica da população.

Leia mais

AULAS 14 E 15 Modelo de regressão simples

AULAS 14 E 15 Modelo de regressão simples 1 AULAS 14 E 15 Modelo de regressão simples Ernesto F. L. Amaral 18 e 23 de outubro de 2012 Avaliação de Políticas Públicas (DCP 046) Fonte: Wooldridge, Jeffrey M. Introdução à econometria: uma abordagem

Leia mais

COMPARAÇÃO DE MODELOS MISTOS VISANDO À ESTIMAÇÃO DO COEFICIENTE DE HERDABILIDADE PARA DADOS DE PROPORÇÕES

COMPARAÇÃO DE MODELOS MISTOS VISANDO À ESTIMAÇÃO DO COEFICIENTE DE HERDABILIDADE PARA DADOS DE PROPORÇÕES COMPARAÇÃO DE MODELOS MISTOS VISANDO À ESTIMAÇÃO DO COEFICIENTE DE HERDABILIDADE PARA DADOS DE PROPORÇÕES Telde Natel CUSTÓDIO 1 Décio BARBIN RESUMO: O objetivo deste trabalho foi apresentar um procedimento

Leia mais

MAE Planejamento e Pesquisa II

MAE Planejamento e Pesquisa II MAE0327 - Planejamento e Pesquisa II EXPERIMENTOS/ESTUDOS NÃO-BALANCEADOS COM FATORES FIXOS - PARTE 1 7 de agosto de 2016 Denise A Botter MAE0327 7 de agosto de 2016 1 / 1 PLANEJAMENTO E PESQUISA I Estudos

Leia mais

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA UFPE - Universidade Federal de Pernambuco Departamento de Estatística Disciplina: ET-406 Estatística Econômica Professor: Waldemar A. de Santa Cruz Oliveira Júnior INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA Podemos

Leia mais

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves Capítulo 9 - Regressão Linear Simples RLS: Notas breves Regressão Linear Simples Estrutura formal do modelo de Regressão Linear Simples RLS: Y i = β 0 + β 1 x i + ε i, 1 onde Y i : variável resposta ou

Leia mais

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas. 1. Inferência Estatística Inferência Estatística é o uso da informção (ou experiência ou história) para a redução da incerteza sobre o objeto em estudo. A informação pode ou não ser proveniente de um experimento

Leia mais

Utilização de modelos marginais na análise de dados longitudinais irregulares em relação ao tempo

Utilização de modelos marginais na análise de dados longitudinais irregulares em relação ao tempo Utilização de modelos marginais na análise de dados longitudinais irregulares em relação ao tempo César Gonçalves de Lima 1 Michele Barbosa 2 Valdo Rodrigues Herling 3 1. Introdução Dados longitudinais

Leia mais

4 Modelos de Regressão Dinâmica

4 Modelos de Regressão Dinâmica 4 Modelos de Regressão Dinâmica Nos modelos de regressão linear (Johnston e Dinardo, 1998) estudados comumente na literatura, supõe-se que os erros gerados pelo modelo possuem algumas características como:

Leia mais

Análise de Dados Longitudinais Modelos de Regressão - Perspecitva Histórica

Análise de Dados Longitudinais Modelos de Regressão - Perspecitva Histórica 1/41 Análise de Dados Longitudinais Modelos de Regressão - Perspecitva Histórica Enrico A. Colosimo/UFMG http://www.est.ufmg.br/ enricoc/ Revisão para Dados Transversais 1 Características Informações amostrais

Leia mais

Aula inaugural do curso Análise de Regressão

Aula inaugural do curso Análise de Regressão Aula inaugural do curso Prof a Silvia Nagib Elian Sala 215 - Bloco A Instituto de Matemática e Estatística Universidade de São Paulo Agenda 1. Exemplo 2. Introdução 3. Modelo de regressão linear simples

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS As variáveis aleatórias X e Y seguem uma distribuição de Bernoulli com probabilidade de sucesso igual a 0,4. Considerando S = X + Y e que os eventos aleatórios A = [X = 1] e B

Leia mais

Correlação e Regressão

Correlação e Regressão Correlação e Regressão Vamos começar com um exemplo: Temos abaixo uma amostra do tempo de serviço de 10 funcionários de uma companhia de seguros e o número de clientes que cada um possui. Será que existe

Leia mais

Modelos de Regressão Linear Simples - parte I

Modelos de Regressão Linear Simples - parte I Modelos de Regressão Linear Simples - parte I Erica Castilho Rodrigues 19 de Agosto de 2014 Introdução 3 Objetivos Ao final deste capítulo você deve ser capaz de: Usar modelos de regressão para construir

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS Julgue os itens que se seguem, acerca da estatística descritiva. 51 Na distribuição da quantidade de horas trabalhadas por empregados de certa empresa, é sempre possível determinar

Leia mais

2 ou mais fatores são de interesse.

2 ou mais fatores são de interesse. 5. Experimentos Fatoriais 5.1 Definições e Princípios Básicos 2 ou mais fatores são de interesse. Experimentos Fatoriais: em cada replicação do experimento todas as combinações dos níveis de tratamento

Leia mais

Modelo Linear Generalizado Exponencial Potência

Modelo Linear Generalizado Exponencial Potência Modelo Linear Generalizado Exponencial Potência Cristian Villegas 1 2 1 Introdução Os modelos lineares normais são amplamente aplicados em diversas áreas do conhecimento para modelar a média de dados contínuos

Leia mais

Planejamento e Otimização de Experimentos Ajuste de Modelos de Regressão e Outros Planejamentos

Planejamento e Otimização de Experimentos Ajuste de Modelos de Regressão e Outros Planejamentos Planejamento e Otimização de Experimentos Ajuste de Modelos de Regressão e Outros Planejamentos Prof. Dr. Anselmo E de Oliveira anselmo.quimica.ufg.br anselmo.disciplinas@gmail.com.br Ajuste de modelos

Leia mais

Estimadores, pontual e intervalar, para dados com censuras intervalar

Estimadores, pontual e intervalar, para dados com censuras intervalar Estimadores, pontual e intervalar, para dados com censuras intervalar Débora Ohara, Estela Maris Pereira Bereta, Teresa Cristina Martins Dias Resumo Dados com censura intervalar ocorrem com frequência

Leia mais

Econometria IV Modelos Lineares de Séries Temporais. Fernando Chague

Econometria IV Modelos Lineares de Séries Temporais. Fernando Chague Econometria IV Modelos Lineares de Séries Temporais Fernando Chague 2016 Estacionariedade Estacionariedade Inferência estatística em séries temporais requer alguma forma de estacionariedade dos dados Intuição:

Leia mais

3 Modelos para o Cálculo de IBNR

3 Modelos para o Cálculo de IBNR 3 Modelos para o Cálculo de IBNR 3.1 O Método de Mack Tomas Mack em (24) propõe um modelo probabilístico para o método Chain Ladder que fornece estimativas de provisão idênticas à técnica Chain Ladder

Leia mais

Associação entre duas variáveis

Associação entre duas variáveis Associação entre duas variáveis Questões de interesse: Será que duas variáveis são independentes ou pelo contrário dependentes? E se forem dependentes, qual o tipo e grau de dependência? Existem diversas

Leia mais

Modelos de regressão para dados correlacionados. Cibele Russo

Modelos de regressão para dados correlacionados. Cibele Russo Modelos de regressão para dados correlacionados Cibele Russo cibele@icmc.usp.br ICMC USP Mini-curso oferecido no Workshop on Probabilistic and Statistical Methods 28 a 30 de janeiro de 2013 Cibele Russo

Leia mais

IND 1115 Inferência Estatística Aula 6

IND 1115 Inferência Estatística Aula 6 Conteúdo IND 5 Inferência Estatística Aula 6 Setembro de 004 A distribuição Lognormal A distribuição Beta e sua relação com a Uniforme(0,) Mônica Barros mbarros.com mbarros.com A distribuição Lognormal

Leia mais

Instituto Federal Goiano

Instituto Federal Goiano e simples e Instituto Federal Goiano e Conteúdo simples 1 2 3 4 5 simples 6 e simples Associação entre duas variáveis resposta Exemplos: altura de planta e altura da espiga, teor de fósforo no solo e na

Leia mais

Modelos Lineares Generalizados - Métodos de Estimação

Modelos Lineares Generalizados - Métodos de Estimação Modelos Lineares Generalizados - Métodos de Estimação Erica Castilho Rodrigues 07 de Abril de 2014 3 Componentes dos MLG s Os MLG s são compostos por duas partes: componente sistemático e componente aleatório.

Leia mais

PARTE 1 ANÁLISE DE REGRESSÃO COM DADOS DE CORTE TRANSVERSAL CAPÍTULO 2 O MODELO DE REGRESSÃO SIMPLES

PARTE 1 ANÁLISE DE REGRESSÃO COM DADOS DE CORTE TRANSVERSAL CAPÍTULO 2 O MODELO DE REGRESSÃO SIMPLES PARTE 1 ANÁLISE DE REGRESSÃO COM DADOS DE CORTE TRANSVERSAL CAPÍTULO 2 O MODELO DE REGRESSÃO SIMPLES 2.1 DEFINIÇÃO DO MODELO DE REGRESSÃO SIMPLES Duas variáveis: y e x Análise explicar y em termos de x

Leia mais

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia Estatística espacial Padrão Pontual Padrão de Pontos A análise de padrão de pontos, é o tipo mais simples de análise

Leia mais

5. Carta de controle e homogeneidade de variância

5. Carta de controle e homogeneidade de variância 5. Carta de controle e homogeneidade de variância O desenvolvimento deste estudo faz menção a dois conceitos estatísticos: as cartas de controle, de amplo uso em controle estatístico de processo, e a homogeneidade

Leia mais

1 z 1 1 z 2. Z =. 1 z n

1 z 1 1 z 2. Z =. 1 z n Gabarito Lista 3. Tópicos de Regressão. 2016-2. 1. Temos que y i ind N (µ, φi ), com log φ i = α + γz i, para i = 1,..., n, portanto (i) para o γ = (α, γ) a matriz modelo ca Z = 1 z 1 1 z 2.. 1 z n (ii)

Leia mais