Métodos de Diagnóstico para. Modelos Lineares Mistos. Juvêncio Santos Nobre
|
|
- Walter Pinhal Avelar
- 6 Há anos
- Visualizações:
Transcrição
1 Métodos de Diagnóstico para Modelos Lineares Mistos Juvêncio Santos Nobre INSTITUTO DE DISSERTAÇÃO APRESENTADA AO MATEMÁTICA E ESTATÍSTICA DA UNIVERSIDADE DE PARA SÃO PAULO OBTENÇÃO DO GRAU DE MESTRE EM ESTATÍSTICA Área de Concentração: Estatística Orientador: Julio da Motta Singer Durante a elaboração deste trabalho o autor recebeu apoio financeiro do CNPq São Paulo, Março de 2004
2 Métodos de Diagnóstico para Modelos Lineares Mistos Este exemplar corresponde à redação final da dissertação devidamente corrigida e defendida por Juvêncio Santos Nobre e aprovada pela comissão julgadora. São Paulo, 04 de Março de Comissão Julgadora: Prof. Dr. Julio da Motta Singer (Orientador)- IME/USP Prof. Dr. Dalton Francisco de Andrade - UFSC Prof. Dr. Geraldo da Silva e Souza - UNB
3 All models are wrong, but some are useful. Box Wir müssen wissen, Wir werden wissen. David Hilbert Mesmo as noites, totalmente sem estrelas podem anunciar a aurora de uma grande realização. Martin Luther King
4 Dedico este trabalho À Deus acima de tudo À minha mãe Gracilene, por ser a melhor pãe (mãe e pai) do mundo À minha noiva Jacqueline, por existir na minha vida Aos meus mestres e amigos Prof. Maurício, Prof. Julio e Prof. Dalton, obrigado por tudo À Terezinha de Campos Modesto, In Memoriam.
5 Agradecimentos Gostaria de agradecer: À Deus, por me oferecer saúde, disposição, discernimento e por colocar várias pessoas maravilhosas na minha vida, além de me fornecer inúmeras oportunidades. A Ele só tenho a agradecer por tudo. À meu orientador, mestre e amigo, professor Julio da Motta Singer, pela ótima recepção e enorme solicitude prestadas quando cheguei em São Paulo. Obrigado pela grande oportunidade de ser seu orientando, agradeço pela sua competente orientação, pelo grande entusiasmo, apoio, paciência, segurança, tranqüilidade e força transmitidos durante todo o meu mestrado e principalmente durante a elaboração deste trabalho. Ao professor Maurício, mais do que um professor: um grande mestre, amigo e pai. Obrigado pelos inúmeros conselhos, palavras de conforto, o grande incentivo dado para eu fazer o mestrado, pelo incomensurável apoio (desde do período da graduação até os dias de hoje) e por sempre acreditar em mim. Ao professor Dalton, um grande mestre e amigo. Obrigado pelo incentivo, apoio e colaboração, principalmente no que tange a decisão de fazer o mestrado. Ao professor Welliandre, meu primeiro orientador, agradeço pela paciência, pelo entusiasmo, incentivo e ensinamentos transmitidos no decorrer de toda a minha vida acadêmica. Agradeço à pessoa a quem tenho plena consciência de dever tudo que sou hoje: Gracilene, meu pai e mãe reunidos em uma única pessoa; grande responsável por tudo de bom que acontece na minha vida, meu grande ídolo. Obrigado, por todo amor destinado, pelos carinhos, as palavras de conforto, os inúmeros ensinamentos, a força dada e por sempre incentivar, confiar e acreditar em mim, mesmo nos piores momentos. Obrigado Mãezinha, este momento é a realização do nosso sonho, que por inúmeras vezes pareceu impossível, por este motivo, dedico esse trabalho à senhora. À minha noiva Jacqueline (meu Teorema Central do Limite), obrigado pela paciência, compreensão, ternura, pelos sonhos, companherismo, força, amor e apoio destinados nos
6 vi momentos mais difíceis, nunca esqueça que você é muito importante para mim e principalmente de que o mundo nos pertence. Aos meus padrinhos Fátima e Tácito pela grande ajuda dada a minha mãe e a mim, principalmente durante a infância. A Maria Medeiros, Terezinha de Campos Modesto e a tia Jack por nos ajudar nos momentos em que mais precisávamos. Aos componentes da minha banca, Prof. Dalton e Prof. Geraldo da Silva, e aos professores Gilberto Alvarenga e Francisco Cysneiros, pelas sugestões e comentários valiosos para o melhoramento desta dissertação. À todos que fazem parte do Departamento de Estatística e Matemática Aplicada da Universidade Federal do Ceará. Dentre os professores, gostaria de agradecer: João Maurício, Rosa Salani, João Welliandre, Nelson Braga, Júlio Barros, Sílvia Maria, Ana Maria, Robson Medeiros, André Jalles e Manoel Campelo; as funcionárias: Margarida, Margéri, Luisa e Mariluse; aos grandes amigos que formei durante meus quatro anos de graduação: Caio, Carlos, Dhavynci, Agnaldo, Cledinaldo e Adriana; aos amigos que ingressaram na turma de , que me ajudaram por demais nos primeiros semestres; todos os alunos da turma de Probabilidade I do primeiro semestre de 2000, em especial: Jacqueline, Saulo, Josemar, Erivan, Ricardo, Robério, Fábio, Cynthia, Velma, Cleudimar, Marcos, etc; a todos os alunos do curso de Probabilidade III ministrado no verão de Certamente todos ficaram torcendo por mim nesse desafio em São Paulo. Obrigado pela amizade e força que vocês me deram e tenham certeza que vocês fazem parte da minha família. A todos os professores e funcionários do Departamento de Estatística do, em especial aos professores no qual tive o prazer de manter um contato maior: Antônio Carlos, Caio Dantas, Carlos Alberto Bragança, Chang Chiann, Denise Botter, Elisabeth Kira, Fábio Prates, Gilberto Alvarenga, Márcia Branco, Serguei Popov, Sílvia Ferrari, Vanderley Bueno e Wagner Borges e as funcionárias: Simone, Cecília, Helena e Elaine (CEA) que sempre estão dispostas a ajudar com simpatia e presteza. Agradeço também a todos os funcionários da biblioteca do IME/USP e do serviço de xerox, por sempre atenderem com prontidão. Aos meus amigos de Pós-Graduação (não ousarei enumerar todos), em especial para meu grande amigo (leia irmão) Caio, pela descomensurável ajuda dada no período do curso de verão e no decorrer de todo o meu primeiro ano em São Paulo, pelos momentos de força, apoio, pelas idas ao rodízio, pelas piadas sem graça, pelos jogos aos Sábados de madrugada, em especial o quebra e pelas pouquissímas ( 0) vezes que tive que escutar: A mim, pouco se-me-dá que as êmulas claudiquem, o que me apraz é acicatá-
7 vii las. Aos três amigos no qual tenho um carinho muito especial: Diana ( chegou cedo cara? ), Elier ( Desculpa professor ) e Perseverando (pelas brincadeiras, idas ao estádio, mesmo nos jogos sem graça como SP 3 x 1 For em 17/04/03 e COR 2 x 0 For em 13/09/03), obrigado pela sincera amizade. Gostaria de agradecer também a Adrilayne, Rogério & Família (SP), Marcelo & Lane (CE-SP), Waldemar (Virgulino-PE), Michel (PE), Francisco Cysneiros & Audrey Cysneiros (PE), Michelle & Horácio (PB), Patrícia (BA), Diana & Gustavo, Regina & Olímpio (SP), Fred (SP), Cléber (SP), Iracema (SP), Kelly (SP), Paulão ( Cadê a distribuição Juvêncio? ), Gissela (DF), Márcio (CE), Marcelo (RJ), Edvaldo (MG), Alberto (PE), Jorge (Peru), Victor Hugo (Peru), Lourdes (Peru), Romeu ( Zamorano? ) e a todos os colegas da minha turma de mestrado e aos amigos do futsal aos sábados dentre muitos outros que ajudaram a transformar minha vida em São Paulo infinitamente mais agradável. Aos meus amigos cruspianos: Álvaro (SP), Ana (DF), Caio (CE), Edvaldo (MG), Juan (Peru), Marcelo (RJ) e Márcio (CE) obrigado pela excelente convivência e pelo clima de camaradagem. Agradeço também a grande ajuda prestada pela minha assistente social Neusa. E a todos que não mencionei que me ajudaram (direta ou indiretamente) na realização desse sonho.
8 Resumo Muitos fenômenos podem ser representados por meio de modelos estatísticos de forma satisfatória. Para validar tais modelos é necessário verificar se as suposições envolvidas estão satisfeitas e se o modelo é sensível a pequenas perturbações; este é o objetivo da análise de diagnóstico. Neste trabalho apresentamos, discutimos e propomos técnicas de diagnóstico em modelos lineares mistos e as ilustramos com um exemplo prático.
9 Abstract Many phenomena can be represented through statistical models in a satisfactory way. To validate such models it is necessary to verify whether the assumptions are satisfied and whether the model is sensitive to small deviations; this constitutes the objective of diagnostic analysis. In this work we present, discuss and propose diagnostic techniques for mixed linear models and illustrate them with a practical example.
10 Lista de Tabelas 1.1 Índice de placa bacteriana Estimativas (± EP) dos parâmetros dos modelos (4.2), (4.9) e (4.10) com estrutura de covariâncias (4.8) Estimativas dos parâmetros do modelo (4.10) ao eliminar as unidades experimentais #12 e #
11 Lista de Figuras 1.1 Diagrama de dispersão entre os índices de placa bacteriana pré-escovação e pós-escovação para escova convencional Diagrama de dispersão entre os índices de placa bacteriana pré-escovação e pós-escovação para escova monobloco Ajuste do modelo final Resíduo marginal e EBLUP do modelo final (4.10) Resíduo condicional padronizado e envelope simulado com 95% para o resíduo com confundimento mínimo Alavancagem generalizada Influência local Distância de Cook condicional por observação Distância de Cook condicional por unidade experimental
12 Índice Agradecimentos Resumo Abstract Lista de Tabelas Lista de Figuras v viii ix x xi 1 Modelos Lineares Mistos Introdução e motivação Especificação do modelo Inferência Estatística Testes de hipóteses e critérios de informação Análise de Resíduos Tipos de resíduos Utilização do resíduo condicional Utilização do EBLUP Análise de Sensibilidade em Modelos Lineares Mistos Introdução Inclusão de efeitos fixos Gráfico da variável adicionada para efeitos fixos Decomposição do gráfico da variável adicionada Pontos alavanca Eliminação de observações Influência local
13 xiii 3.8 Influência local em modelos lineares mistos Perturbação na matriz de covariâncias do erro Perturbação na variável resposta Perturbação na matriz de covariâncias dos efeitos aleatórios Caso ponderado Aplicação Introdução Especificação do modelo Diagnóstico do modelo ajustado Comentários Recursos computacionais Pesquisas futuras A Expressões do Capítulo 1 58 A.1 Identidades (1.9), (1.19), (1.20) e (1.23) A.1.1 Identidade (1.9) A.1.2 Identidade (1.19) A.1.3 Identidade (1.20) A.1.4 Identidade (1.23) A.2 BLUE e BLUP A.3 Propriedades do BLUE e BLUP B Expressões do Capítulo 2 62 B.1 Identidades (2.5), (2.6) e (2.7) B.2 Identidades (2.16) e (2.17) C Expressões do Capítulo 3 64 C.1 BLUE (3.4) C.2 Fórmula de atualização do BLUP (3.9) C.3 Identidades (3.10) e (3.11) C.4 BLUE e BLUP do modelo (3.22) C.5 Identidades (3.26), (3.27), (3.28), (3.29) e (3.30) C.6 Decomposição da medida de Cook condicional (3.37) C.7 Identidade (3.43)
14 xiv C.8 Derivadas (3.55), (3.57) e (3.57) C.9 Identidade (3.58) C.10 Matriz (3.61) C.11 Derivadas (3.64), (3.65) e (3.66) C.12 Identidade (3.70) C.13 Matriz Hessiana Referências Bibliográficas 74
15 Capítulo 1 Modelos Lineares Mistos 1.1 Introdução e motivação Muitas técnicas estatísticas são fundamentadas sobre a hipótese de independência entre as observações. Tal hipótese é razoável em muitos estudos do tipo transversal ( crosssectional ), em que apenas uma observação é considerada para cada unidade experimental. Estudos com medidas repetidas se referem a casos nos quais cada unidade experimental é observada pelo menos duas vezes. Por essa razão, espera-se uma dependência entre as observações referentes à mesma unidade experimental. Esses estudos abrangem, entre outros, os delineamentos com parcelas sub-divididas ( split-plot ) e delineamentos com intercâmbio ( crossover ), além dos estudos longitudinais. A característica que distingue os estudos longitudinais é a ordenação (ao longo do tempo, por exemplo) com que os dados são coletados. Para maiores detalhes sobre estudos longitudinais, veja por exemplo Singer & Andrade (2000) ou Diggle et al. (2002). Estudos longitudinais são comuns em pesquisas de diversas áreas, como Ciências Sociais, Economia, Educação, Medicina, etc. Como ilustração consideramos um estudo realizado na Faculdade de Odontologia da Universidade de São Paulo, que visa comparar dois tipos de escova: monobloco e convencional [Parizzoto (1999)]. Uma avaliação da eficácia dos dois tipos de escova na remoção de placa bacteriana, utilizando ou não dentifrício, está apresentada em Singer et al. (2004). Outro objetivo do estudo é comparar os tipos de escova quanto à manutenção da capacidade de remoção da placa bacteriana (durabilidade) sob uso diário. Com esta finalidade, foram observadas 32 crianças em 4 sessões quinzenais, uma das quais correspondente à avaliação inicial. As crianças foram alocadas a dois grupos de tamanhos iguais, cada um submetido ao tratamento com uma das escovas. Durante o período de observação, cada criança utilizou a mesma escova que lhe foi dada na primeira sessão. Em cada sessão de avaliação, mediu-se um índice de placa bacteriana antes (pré-
16 1.1 Introdução e motivação 2 tratamento) e depois (pós-tratamento) da escovação. Os dados encontram-se na Tabela 1.1. Nas Figuras 1.1 e 1.2 estão apresentados gráficos de dispersão entre os índices de placa bacteriana pré-tratamento (x) e pós-tratamento (y). O que caracteriza os dados desse estudo como longitudinais é a observação das mesmas unidades experimentais (crianças) ao longo das quatro sessões de avaliação. Conforme nomenclatura indicada em Singer & Andrade (2000) consideramos tal estudo como longitudinal e balanceado com respeito ao tempo. Figura 1.1 Diagrama de dispersão entre os índices de placa bacteriana pré-escovação e pósescovação para escova convencional. Indice de placa bacteriana pos-tratamento Escova Convencional Sessao Indice de placa bacteriana pos-tratamento Escova Convencional Sessao Indice de placa bacteriana pre-tratamento Indice de placa bacteriana pre-tratamento Indice de placa bacteriana pos-tratamento Escova Convencional Sessao Indice de placa bacteriana pos-tratamento Escova Convencional Sessao Indice de placa bacteriana pre-tratamento Indice de placa bacteriana pre-tratamento Figura 1.2 Diagrama de dispersão entre os índices de placa bacteriana pré-escovação e pósescovação para escova monobloco. Indice de placa bacteriana pos-tratamento Escova Monobloco Sessao Indice de placa bacteriana pos-tratamento Escova Monobloco Sessao Indice de placa bacteriana pre-tratamento Indice de placa bacteriana pre-tratamento Indice de placa bacteriana pos-tratamento Escova Monobloco Sessao Indice de placa bacteriana pos-tratamento Escova Monobloco Sessao Indice de placa bacteriana pre-tratamento Indice de placa bacteriana pre-tratamento
17 1.1 Introdução e motivação 3 Tabela 1.1 Índice de placa bacteriana. 1 a sessão 2 a sessão 3 a sessão 4 a sessão Criança Escova Antes Depois Antes Depois Antes Depois Antes Depois 1 Convencional Convencional Convencional Convencional Convencional Convencional Convencional Convencional Convencional Convencional Convencional Convencional Convencional Convencional Convencional Convencional Monobloco Monobloco Monobloco Monobloco Monobloco Monobloco Monobloco Monobloco Monobloco Monobloco Monobloco Monobloco Monobloco Monobloco Monobloco Monobloco
18 1.1 Introdução e motivação 4 Grande parte do esforço empregado na análise de dados com medidas repetidas está relacionada com a modelagem da estrutura de correlação intra-unidades amostrais. Com essa finalidade, Laird & Ware (1982) e Ware (1985) propõem a utilização de modelos lineares mistos. McCulloch & Searle (2001) sugerem a inclusão de variáveis latentes (não observáveis) em modelos lineares (ou não lineares) como alternativa para modelar a estrutura de correlação intra-unidades experimentais. Os modelos lineares mistos têm como casos particulares o modelo linear clássico, o modelo de componentes de variância e também os modelos hierárquicos (multiníveis) [Natis (2000)]. Outras alternativas para análise de dados com medidas repetidas consideram modelos lineares generalizados com a inclusão de uma matriz de correlação de trabalho para modelar a matriz de covariâncias intra-unidades amostrais [Liang & Zeger (1986)]. A análise sob esses modelos utiliza as chamadas equações de estimação generalizadas (EEG). Para detalhes e aplicações, veja por exemplo, Heyde (1997), Artes (1997), Hardin & Hilbe (2003) e Venezuela (2003). Uma terceira alternativa é utilizar os modelos lineares generalizados mistos [McCulloch & Searle (2001)]. Assim como os demais modelos estatísticos, esta classe de modelos é utilizada como aproximação para processos complexos. Dentro desse contexto é preciso avaliar se tal aproximação é aceitável. Um item de suma importância na análise de tais modelos é sua validação, usualmente concretizada por meio da análise de diagnóstico, que consiste de duas etapas: avaliação do ajuste e análise de sensibilidade. A primeira etapa corresponde à verificação de possíveis afastamentos das suposições adotadas. A segunda etapa tem por objetivo estudar a variação dos resultados da análise quando se modifica discretamente a formulação considerada inicialmente. Se esta variação é substancial no sentindo de mudar conclusões, diz-se que o modelo não é robusto, pois sob pequenas modificações leva a resultados significativamente distintos. Neste caso, as conclusões devem ser tomadas (se tomadas) de forma cautelosa, ou então deve-se decidir pelo uso de outro modelo. No caso de regressão linear, existe uma gama de propostas de medidas e testes para avaliar o ajuste do modelo. Para detalhes, veja, por exemplo, Cook (1977), Hoaglin & Welsch (1978), Belsley et al. (1980), Cook & Weisberg (1982), Atkinson (1985), Chatterjee & Hadi (1986, 1988), Johnson & McCulloch (1987), Gray (1989) e Besley (1991). Paula (2003) traz um resumo das técnicas de diagnóstico utilizadas no caso linear e nos modelos lineares generalizados; Venezuela (2003, Cap.3) apresenta técnicas de diagnóstico utilizadas em modelos lineares generalizados para análise de dados com medidas repetidas. Rocke (1983) e Fellner (1986) desenvolveram métodos robustos de estimação dos parâme-
19 1.2 Especificação do modelo 5 tros do modelo de componentes de variância; este último autor mostrou como seu método pode ser utilizado para identificar dados discrepantes ( outliers ). Beckman et al. (1987) e Lesaffre & Verbeke (1998) desenvolveram métodos de diagnóstico para modelos lineares mistos com base no conceito de influência local. Christensen & Pearson (1992), Hilden- Minton (1995), Banerjee & Frees (1997) e Tan et al. (2001) estudam a influência em modelos lineares mistos, causada pela eliminação de observações enquanto que Fung et al. (2002) estuda este tipo de influência em modelos lineares mistos semiparamétricos. O objetivo deste trabalho é apresentar métodos de diagnóstico em modelos lineares mistos visando sua utilização prática. Nesse capítulo fazemos uma revisão da teoria de modelos lineares mistos. No Capítulo 2, são discutidas formas para avaliar se as suposições do modelo são satisfeitas, por intermédio da análise de resíduos, enquanto que no Capítulo 3, daremos ênfase à análise de sensibilidade. Uma aplicação a dados reais está apresentada no Capítulo Especificação do modelo Um modelo linear misto pode ser escrito na forma Y i = X i β + Z i γ i + ε i, i = 1,..., c, (1.1) em que Y i representa um vetor (n i 1) de respostas da i-ésima unidade experimental, β é um vetor (p 1) de parâmetros (efeitos fixos), X i é uma matriz (n i p) de especificação (conhecida e de posto completo) dos efeitos fixos, γ i é um vetor (q 1) de variáveis latentes, comumente denominadas efeitos aleatórios, que refletem o comportamento individual da i-ésima unidade experimental, Z i é uma matriz (n i q) de especificação (conhecida e de posto completo) dos efeitos aleatórios e ε i é um vetor (n i 1) de erros aleatórios. Fazendo Y = (Y 1,, Y c ), X = (X 1 X c ), Z=diag(Z 1,, Z c ), γ = (γ 1,, γ c ) e ε = (ε 1,, ε c ), podemos reescrever o modelo (1.1) compactamente como Y = Xβ + Zγ + ε. (1.2) Em geral, assume-se que IE[γ] = 0, IE[ε] = 0 com [ ] [ γ 0cq n Cov = ε 0 n cq Σ ], (1.3) em que 0 k1 k 2 representa uma matriz nula de ordem k 1 k 2, e Σ são matrizes quadradas de ordens cq e n = c i=1 n i, positivas definidas, que correspondem respectivamente,
20 1.2 Especificação do modelo 6 às matrizes de covariâncias dos vetores aleatórios γ e ε. No modelo (1.2), os efeitos fixos são usados para modelar o valor esperado da variável resposta Y, enquanto que os efeitos aleatórios são utilizados para modelar sua estrutura de covariância. Usualmente, assume-se que γ (ε) segue distribuição normal cq (n)-variada, com γ 1,..., γ c i.i.d. N q (0, G), implicando que = I c G, com Ic representando a matriz identidade de ordem c e o produto de Kronecker. Quando se atribui uma distribuição a priori para γ, o modelo (1.2) é denominado modelo linear geral de Bayes [Lindley & Smith (1972)]. Fazendo ξ = Zγ + ε, obtém-se Y = Xβ + ξ, (1.4) e essas especificações implicam que ξ tem distribuição normal n-variada com vetor de médias 0 n e matriz de covariâncias V = Z Z + Σ. Em geral, supõe-se que e Σ são funções de poucos parâmetros (desconhecidos) θ que independem dos parâmetros de localização β. Às vezes é comum colocar um parâmetro de dispersão σ 2 em evidência, ou seja, fazer = σ 2 D(θ) e Σ = σ 2 R(θ), com D e R denotando matrizes positivas definidas, e então V = σ 2 ( ZDZ + R ). (1.5) Diferentes estruturas para D e R podem ser encontradas na literatura; veja por exemplo, Rao & Kleffe (1991), Searle et al. (1992), Verbeke & Molenberghs (1997), Singer & Andrade (2000), Littell et al. (2000), Pinheiro & Bates (2000) e Rocha (2004). Quando R é uma matriz diagonal, o modelo (1.2) é denominado modelo de independência condicional; se além disso, R = I n e = 0 cq cq, o modelo (1.2) corresponde ao modelo linear homocedástico usual. No presente trabalho, daremos enfâse ao modelo de independência condicional homocedástico [R = I n ]. Os modelos lineares mistos podem ser generalizados da mesma forma com que o modelo linear geral foi generalizado por Nelder & Weddeburn (1972). Em particular, podemos citar os modelos lineares generalizados mistos (MLGM) ou modelos lineares generalizados latentes (MLGL), em que se inclui um vetor de efeitos aleatórios γ no preditor linear; tais modelos são muito utilizados em análise de dados com medidas repetidas quando a variável resposta pertence à família exponencial. Nessa classe, modelase uma função ϕ do vetor de médias condicionais µ = IE[Y γ] por meio de um preditor
21 1.3 Inferência Estatística 7 linear da forma ϕ(µ) = Xβ + Zγ; (1.6) além disso assume-se que a distribuição condicional de Y i dado γ pertence à família exponencial e que a função ϕ é diferenciável e monótona. Para detalhes referentes a esses modelos, veja, por exemplo, Schall (1991), Breslow & Clayton (1993), McGilchrist (1994), Kuk (1995) e McCulloch & Searle (2001, Cap. 8). Sob o enfoque Bayesiano, Lee & Nelder (1996) propuseram modelos lineares generalizados hierárquicos em que não é necessário supor uma distribuição normal para γ, mas sim uma distribuição conjugada da distribuição da variável resposta Y. McCullogh & Searle (2001, p. 224) mostraram como a inclusão de efeitos aleatórios no preditor linear pode ser útil em casos com superdispersão, quando a distribuição condicional de Y i dado γ é Poisson. Costa (2003) apresenta aplicações dos MLGM para dados longitudinais. Outras aplicações desses modelos podem ser encontradas em Breslow (1984), Williams (1992) e Tempelman & Gianola (1996), por exemplo. Algumas notas históricas a respeito de modelos lineares mistos, podem ser encontradas em Rao & Kleffe (1991), Searle et al. (1992) e Pinheiro (1994). 1.3 Inferência Estatística Vários métodos de estimação dos parâmetros do modelo (1.2) estão disponíveis na literatura; dentre eles convém destacar os métodos Bayesianos [Tountenburg (1982), Maritz & Lwin (1989) e Searle et al. (1992)], o método de Máxima Verossimilhança (MV) e Máxima Verossimilhança Restrita (MVR) [Patterson & Thompson (1971), Harville (1977), Robinson (1991), Searle et al. (1992) e Jiang (1996)] e o método de Mínimos Quadrados (MQ) [Searle et al.(1992), Draper & Smith (1998) e Hoffman & Vieira (1998)]. Supondo que Σ (R) e (D) são conhecidas todos esses métodos são equivalentes, desde que no método Bayesiano seja atribuída uma distribuição a priori não informativa para γ [Hilden-Minton (1995) e Jiang (1997)]. Através do teorema de Gauss-Markov para efeitos aleatórios Harville (1976) obtém o melhor estimador linear não viesado ( BLUEbest linear unbiased estimator ) para β e o melhor preditor não viesado ( BLUPbest linear unbiased predictor ) para o vetor de efeitos aleatórios γ. Na prática Σ (R) e (D) são desconhecidas, e neste caso existe uma série de divergências sobre os procedimentos de estimação [Searle et al. (1992) e Hilden-Minton (1995)]. O método mais utilizado para estimar o vetor dos parâmetros de covariância
22 1.3 Inferência Estatística 8 θ = (θ, σ 2 ) é o de MVR, pois o correspondente viés dos estimadores dos parâmetros de covariância é menor do que aquele obtido sob os demais métodos. A estimação de θ geralmente envolve equações de estimação não lineares sendo necessá-ria a utilização de métodos iterativos, tais como o EM [Dempster et al. (1977)], Newton-Raphson [Lindstrom & Bates (1988)], entre outros, para obter as estimativas. Nesses procedimentos alternam-se iterações para a estimação dos parâmetros de covariância e parâmetros de localização, β. Dempster et al. (1977, 1981), Laird & Ware (1982) e McLachlan & Krishnan (1997, p. 191) utilizam uma abordagem unificada, via algoritmo EM, para estimar todos os parâmetros de interesse do modelo (1.2). Propostas de implementações alternativas do algoritmo EM podem ser encontradas em Liu & Rubin (1994), McLachlan & Krishnan (1997) e Meng & van Dyk (1998). Propriedades assintóticas dos estimadores de MV e MVR dos parâmetros dos modelos (1.2) são discutidas em Miller (1977), Harville (1977), Pinheiro (1994), Jiang (1996) e Verbeke & Lesaffre (1996b), por exemplo. A seguir apresentaremos um resumo dos principais resultados envolvendo estimadores e preditores obtidos sob o modelo (1.2) dada sua importância para as técnicas de diagnóstico. Sejam γ e β, respectivamente, o BLUP e o BLUE de γ e β então: γ e β são funções lineares de Y ; IE[ γ γ] = 0 e IE[ β β] = 0, ou seja, γ e β são não viesados, respectivamente, para γ e β; γ é o melhor preditor de γ e β é o melhor estimador de β dentro da classe dos preditores (estimadores) lineares, no sentido de que minimizam o erro quadrático médio (EQM) de previsão (estimação) IE[( γ γ) ( γ γ)] (IE[( β β) ( β β)]). Na sua gênese o BLUE e o BLUP foram descritos como os EMV de β e γ obtidos através da densidade conjunta do vetor aleatório (Y, γ), sob a suposição de normalidade de γ e ε, tratada como uma verossimilhança [Robinson (1991)]. Grenander (1981) define o BLUE e o BLUP dentro de um contexto bem mais abstrato e apresenta condições suficientes para que eles sejam unicamente definidos. Diferentes formas de obtenção, tanto do ponto de vista clássico como Bayesiano, e aplicações do BLUP e BLUE podem ser encontradas em Robinson (1991), Searle et al. (1992), Hilden-Minton (1995), Doganaksoy & Balakrishnan (1997), Jiang (1997) e McCulloch & Searle (2001), por exemplo. Hilden-Minton (1995) e Hodges (1998) comentam que existe uma série de vantagens
23 1.3 Inferência Estatística 9 em se utilizar os casos com restrição ( constraint-cases ) para a obtenção do BLUE e BLUP. A idéia básica é reexpressar o modelo linear misto (1.2) na forma de um modelo linear geral através da inclusão de casos artificiais com variâncias desconhecidas [Hodges (1998, seção 2.2)]. Dentre as vantagens citadas em Hodges (1998), destacam-se a obtenção imediata das equações de estimação utilizadas para determinar o BLUE e o BLUP e a conseqüente analogia que pode ser feita com as técnicas de diagnóstico existentes para modelos lineares. Vamos adotar esse efoque a seguir. Consideremos o modelo (1.2) com a inclusão do seguinte caso artificial, 0 cq 1 = 0 cq 1 I cq γ + η, (1.7) simultaneamente com Var[ε] = σ 2 R, Var[η] = σ 2 D e Cov(ε, η ) = 0 n cq, em que η é um vetor de dimensão cq 1 que faz o papel do erro na segunda equação [Hilden-Minton (1995)], e reescrevendo as equações (1.2) e (1.7) em forma matricial, temos [ ] [ ] [ ] [ ] Y X Z β ε = +. (1.8) 0 0 I γ η Pré-multiplicando (1.8) por R 1/2 D 1/2, (para detalhes, veja Apêndice A.1) tem-se Y = X β + ζ, (1.9) [ ] [ ] R 1/2 em que, Y Y R 1/2 =, X X R 1/2 Z =, β = (β, γ ), tal que 0 0 D 1/2 Var[ζ] = σ 2 I cq+n. Desta forma, (1.9) pode ser considerado como um modelo linear homocedástico. Portanto, o BLUE para β e o BLUP para γ podem ser obtidos por meio da equação (1.9), usando o método de MQ, sob o qual se obtém (X ) Y = (X ) X β, ou seja, [ X R 1 Y ] [ X R 1 X X R 1 Z ] [ β ] Z R 1 Y = Z R 1 X Z R 1 Z + D 1 γ. (1.10) Essas equações são conhecidas na literatura como Equações de Henderson. Note que, se D 1 0 (o que implica que γ é um efeito fixo) então (1.10) coincide com a equação de estimação obtida via método de mínimos quadrados generalizados (MQG) [Hoffman & Vieira (1998, cap. 7)]. O BLUP e o BLUE são obtidos resolvendo-se as equações (1.10), que independem da distribuição de γ e ε.
24 1.3 Inferência Estatística 10 Definindo M = σ 2 V 1 = (R + ZDZ ) 1 = R 1 R 1 ZC 1 Z R 1, (1.11) com C = D 1 + Z R 1 Z, (1.12) mostra-se (ver Apêndice A.2) que o BLUE de β é β = ( X MX ) 1 X MY = ( X V 1 X ) 1 X V 1 Y. (1.13) Também pode-se observar que Y X β = M 1 QY, (1.14) com Q = M MX ( X MX ) 1 X M. A matriz Q é simétrica de ordem n, e tal que QM 1 Q = Q (1.15) e QX = 0. (1.16) Além disto, posto(q)=n p. O BLUP de γ (Apêndice A.2) é dado por γ = (Z R 1 Z + D 1 ) 1 Z R 1 (Y X β) (1.17) = C 1 Z R 1 (Y X β). (1.18) O BLUP e o BLUE satisfazem (veja Apêndice A.1) X R 1 Y = X R 1 X β + X R 1 Z γ. (1.19) Uma outra identidade útil é (veja Apêndice A.1) DZ M = C 1 Z R 1. (1.20) A identidade (1.20) fornece uma fórmula alternativa para o cálculo de γ, pois considerando simultaneamente (1.14), (1.18) e (1.20), tem-se γ = DZ M(Y X β) = Z V 1 (Y X β) = DZ QY. (1.21) Propriedades de β e γ, são dadas em Henderson (1975), McLean et al. (1991), Robinson
25 1.4 Testes de hipóteses e critérios de informação 11 (1991), Searle et al. (1992), McCulloch & Searle (2001). Algumas delas são apresentadas no Apêndice A.3. Henderson (1975), mostrou que [ ] [ ] 1 β β X Cov = σ 2 R 1 X X R 1 Z. (1.22) γ γ Z R 1 X Z R 1 Z + D 1 Utilizando os resultados clássicos de regressão obtemos (1.22) diretamente no modelo (1.9). Discussões a respeito do processo de estimação quando X não tem posto completo e as matrizes D e R não são positivas definidas, podem ser encontradas em Henderson (1975) e Harville (1976). No Apêndice A.1, mostra-se que IE[Y QY ] = σ 2 (n p), (1.23) ou seja, que Y QY /(n p) é um estimador não viesado para σ 2. Esse estimador coincide com o EMVR de σ 2 no caso linear homocedástico, uma vez que Y QY n p = Y [I n H] Y n p = SQRes n p = QMRes. Como D e R dependem de um vetor de parâmetros de covariância θ desconhecido, é razoável calcular o BLUE e BLUP com base num estimador θ de θ ; esses estimadores são denominados BLUE e BLUP empíricos (EBLUE e EBLUP). Se θ é o EMV de θ, então o EBLUE e EBLUP, são respectivamente, o EMV de β e o preditor empírico de Bayes dos efeitos aleatórios sob a hipótese de normalidade de γ e ε. Sob algumas condições, tanto o BLUP quanto o BLUE empíricos continuam não viesados [Kackar & Harville (1984) e Jiang (1999)]. Harville & Jeske (1992) fornecem expressões aproximadas para o EQM nesse caso. Verbeke & Lesaffre (1996b) mostram que o EBLUE e o EMV de θ são assintoticamente normais, mesmo quando a distribuição de γ é incorretamente especificada. Jiang (1998) obtém algumas propriedades assintóticas do EBLUP e EBLUE nos modelos de componentes de variância, considerando o EMVR para θ sem supor normalidade dos efeitos aleatórios e do erro. Entre outras propriedades, ele mostra que, sob certas condições de regularidade, os EBLUP são assintoticamente independentes, o que é muito útil para diagnóstico do modelo [Jiang (1998)]. 1.4 Testes de hipóteses e critérios de informação Em geral os testes de interesse são baseados no modelo marginal Y N n (Xβ, V ) e utilizam estatísticas de Wald ou da Razão de Verossimilhanças (RV).
26 1.4 Testes de hipóteses e critérios de informação 12 Assintoticamente, sob a hipótese nula, a estatística de Wald tem uma distribuição χ 2 r, com r representando a correspondente redução no número de parâmetros; tal estatística não é apropriada para casos em que o tamanho da amostra é pequeno, a distribuição dos efeitos aleatórios é assimétrica ou a hipótese a ser testada encontra-se na fronteira do espaço paramétrico. Quando o interesse é testar contrastes do tipo Cβ = 0, com C representando uma matriz de dimensão k 1 p, a estatística do teste é ξ W = (C β) [CV ar( β)c ] 1 C β, (1.24) e sua distribuição aproximada é χ 2 posto(c). Dividindo-se (1.24) por posto(c), obtém-se uma estatística com distribuição aproximada F (posto(c),k), com o número de graus de liberdade do denominador k sendo obtido através de aproximação. Diferentes aproximações para k são discutidas em Fai & Cornelius (1996) e Verbeke & Molenberghs (1997), por exemplo. O teste da RV pode ser utilizado para testar a hipótese nula de que o modelo com mais parâmetros não se ajusta significativamente melhor do que um modelo restrito (com um número reduzido de parâmetros). A estatística da RV é dada por ξ RV = 2(L 1 L 2 ), (1.25) com L 1 representando o máximo da log-verossimilhança sob o modelo restrito (encaixado) e L 2 a respectiva função correspondente do modelo com r parâmetros adicionais. Quando o modelo reduzido não se situa na fronteira do espaço paramétrico, tem-se que ξ RV χ 2 r. Self & Liang (1987) mostram que quando o modelo reduzido se situa na fronteira do espaço paramétrico, então a distribuição assintótica de (1.25) é uma mistura de distribuições χ 2. O teste da RV não é apropriado para testar hipóteses referentes aos efeitos fixos quando se utiliza a log-verossimilhança restrita, uma vez que ela exclui tais efeitos. Recentemente Verbeke & Molenberghs (2003) utilizaram o teste Score e observaram os mesmos problemas dos testes de Wald e da RV. Quando os modelos não são encaixados ou quando a hipótese de interesse situa-se na fronteira do espaço paramétrico, podem-se utilizar alguns critérios de informação fundamentados na teoria da decisão que penalizam os modelos com um grande número de parâmetros. Alguns desses critérios são baseados nas estatísticas AIC (Akaike Information Criterion), o BIC (Bayesian Information Criterion) e o CAIC (Consistent Akaike s Information Criterion) definidos como AIC = 2l + 2d (1.26) BIC = 2l + d ln n (1.27) CAIC = 2l + d(ln n + 1), (1.28)
27 1.4 Testes de hipóteses e critérios de informação 13 com l representando o máximo da log-verossimilhança (completa ou restrita), d o número de parâmetros do modelo e n o número de observações. Quanto menor for o valor dessas estatísticas, maior evidência favorável ao modelo em questão. Detalhes sobre testes de hipóteses e critérios de seleção para modelos lineares mistos podem ser encontrados em Bozdogan (1987), Andreoni (1989), Öfversten (1993), Stram & Lee (1994), Suyama (1995), Christensen (1996), Verbeke & Molenberghs (1997), Pinheiro & Bates (2000), dentre outros.
28 Capítulo 2 Análise de Resíduos Resíduos são utilizados para avaliar a validade das suposições de modelos estatísticos. Por exemplo, no caso linear normal, utilizam-se os resíduos padronizados para verificar homocedasticidade, existência de pontos discrepantes, normalidade e independência dos erros. Cox & Snell (1968) apresentam uma forma geral para definir resíduos para modelos com uma única fonte de variação. Como no modelo linear misto, existe mais de uma fonte de variação, e conseqüentemente mais de um tipo de resíduo, tal definição não pode ser utilizada. No presente capítulo discutiremos algumas propostas de utilização dos diferentes tipos de resíduos associados ao ajuste do modelo (1.1) para avaliar possíveis afastamentos das suposições e detectar a existência de observações e/ou unidades experimentais discrepantes. 2.1 Tipos de resíduos Sob o modelo (1.1) podemos definir três tipos de vetores de erros: Erros condicionais: ε = Y IE[Y γ] = Y Xβ Zγ; Efeitos aleatórios: Zγ = IE[Y γ] IE[Y ]; Erros marginais: ξ = Y IE[Y ] = Y Xβ = Zγ + ε. Os correspondentes valores preditos, denominados resíduos, são dados respectivamente por ˆε = Y X β Z γ, Z γ e ˆξ = ˆr = Y X β, com β e γ representando, respectivamente, o BLUE de β e o BLUP de γ. Cada tipo de resíduo é útil para avaliar algum tipo de suposição do modelo (1.1). Por exemplo, para avaliar a suposição de linearidade da relação entre IE[Y ] e as covariáveis X, Hilden-Minton (1995) sugere construir um gráfico dos resíduos ˆξ contra os valores das covariáveis. Espera-se que os elementos de ˆξ variem aleatoriamente em torno de zero sob a veracidade dessa suposição. Como Var[ξ] = V, então o resíduo ˆξ também pode ser útil para avaliar a validade da estrutura de covariâncias
29 2.2 Utilização do resíduo condicional 15 [Weiss (1995) e Rocha (2004)]. Lesaffre & Verbeke (1998) utilizaram ˆξ para esse fim, como veremos adiante. Utilizando (1.11) e (1.14) podemos concluir que RQY = RM(Y X β) = (I n ZC 1 Z R 1 )(Y X β) = Y X β Z γ = ˆε (2.1) e que ˆξ = M 1 QY. Utilizando (1.15), (1.16) e (1.21) tem-se também que Var[ˆε] = σ 2 RQR, (2.2) Var[ˆξ] = σ 2 M 1 QM 1, (2.3) Var[Z γ] = σ 2 ZDZ QZDZ. (2.4) Para Hilden-Minton (1995) o resíduo puro, é aquele que depende apenas das componentes fixas do modelo e do respectivo erro do qual ele é preditor. Já um resíduo que depende de dois ou mais erros é denominado resíduo confundido. Note que (Apêndice B.1) sob a validade do modelo, temos ˆε = RQε + RQZγ, (2.5) Z γ = ZDZ QZγ + ZDZ Qε, (2.6) ˆξ ξ = X(X MX) 1 X Mξ. (2.7) De (2.5) e (2.6) concluímos que ˆε e Z γ são resíduos confundidos pela presença de γ e ε, respectivamente. Se Z C(X), com C(X) representando o subespaço gerado pelas colunas da matriz X, então QZ = 0 e nesse caso os resíduos são puros. Quando o interesse é verificar a suposição de normalidade para o erro ε, não é aconselhável utilizar ˆε, porque ele é confundido por γ; logo, quando γ se afasta muito da normalidade, ˆε pode não apresentar características de normalidade, mesmo quando ε segue uma distribuição normal. 2.2 Utilização do resíduo condicional Pinheiro & Bates (2000, p.175) sugerem o uso de gráficos de ˆε versus Ŷ e Q-Q para avaliar as suposições de homocedasticidade e normalidade do erro condicional. O resíduo ˆε também pode ser utilizado para identificar observações discrepantes. Propostas semelhantes para avaliar homocesdaticidade por meio do resíduo condicional são dadas em Weiss & Lazaro (1992) e Oman (1995).
30 2.2 Utilização do resíduo condicional 16 Como os elementos de ˆε podem ter variâncias distintas, sugerimos padronizá-los, ou seja, considerar ˆε i = ˆε i σ q ii, (2.8) com ˆε i representando o i-ésimo componente de ˆε, q ii o i-ésimo elemento da diagonal principal de Q e R = I n. Para motivar o uso de (2.8) na identificação de observações discrepantes, considere o estimador não viesado para σ 2, obtido quando eliminamos da amostra um conjunto I = {i 1, i 2,..., i k } (1 i 1 i 2... i k n), denotado por ˆσ 2 (I). Com base em (1.23), obtém-se ˆσ 2 (I) = Y (Q QU I (U I QU I ) 1 U I Q)Y n p k, (2.9) com U I = (u ij ) n k = (U i1, U i2,..., U ik ) em que U i denota a i-ésima coluna da matriz I n. Quando eliminamos a i-ésima observação, lembrando que R = I n, tem-se (ˆε i ) 2 /q ii = Y QU I (U I QU I ) 1 U I QY, e por (2.9) (n p)ˆσ 2 σ 2 = (n p 1)ˆσ2 (i) σ 2 + (ˆε i) 2 σ 2 q ii, implicando ˆσ 2 ( (i) n p ˆε 2 ˆσ 2 = i /q ii n p 1 ), (2.10) que é uma função decrescente de ˆε i. Assim, os resíduos condicionais padronizados (2.8) são úteis para identificar observações com alta influência na estimativa de σ 2. No caso linear normal tal resíduo serve para testar se a i-ésima observação é discrepante [Cook & Weisberg (1982)]. Para o caso em que eliminamos um conjunto I com k observações, tem-se que com M I ˆσ 2 (I) ˆσ 2 = ( n p MI n p k ), (2.11) = Y QU I (U I QU I ) 1 U I QY. Equivalentemente ao caso anterior, um valor grande de M I sugere a existência de ao menos uma observação aberrante no conjunto I. Uma vez que não conhecemos σ 2 e Q, os resíduos acima definidos são calculados com base nas suas respectivas estimativas. Podemos avaliar a suposição de homocedasticidade por meio do gráfico dos elementos (2.8) versus os correspondentes valores preditos. Para avaliar a hipótese de normalidade
31 2.2 Utilização do resíduo condicional 17 de ε a partir de (2.8) o problema é mais complicado, dado que ele é confundido por γ. Considerando (2.5), Hilden-Minton (1995) comenta que a habilidade para avaliar a normalidade de ε diminui quando Var[RQZ γ] = σ 2 RQZDZ QR cresce em relação a Var[RQε] = σ 2 RQRQR. Esse autor define a fração de confudimento para ˆε i como 0 CF i = U i RQZDZ QRU i U i RQRU i = 1 U i RQRQRU i U i RQRU i 1, (2.12) que representa a proporção da variabilidade de ˆε i devida ao confundimento com o BLUP. Quanto maior for (2.12) maior é o grau de confundimento de ˆε i. Hilden-Minton (1995) sugere utilizar uma transformação linear L ˆε, que minimize o confundimento em algum sentindo. Denotando as linhas de L por l i (i = 1,..., n), uma sugestão é minimizar o confundimento de l i ˆε, ou seja maximizar λ i = l i RQRQRl i l i RQRl i, (2.13) sujeito à restrição Var[l i ˆε] l i RQRl i > 0. Como a matriz R tem posto completo, o foco é o espaço não-nulo da matriz semi-positiva definida Q. Considerando a decomposição espectral [Harville (1997, p. 515)] R 1/2 QR 1/2 = KΠK, com K denotando uma matriz n (n p); K K = I n p e Π denotando uma matriz quadrada diagonal de ordem (n p). Além disso, seja l i = R 1/2 KΠ 1/2 v i, para algum vetor v i de dimensão (n p) 1; então (2.13) pode ser escrita como λ i = v i Πv i v i v, (2.14) i que implica [Graybill (1983, p. 409)] π n p λ i π 1, com π n p π 1 1 representando os elementos ordenados de Π (auto-valores não nulos de R 1/2 QR 1/2 ). Considerando v i igual a i-ésima coluna de I n p tem-se que l i = R 1/2 KΠ 1/2 v i = π 1/2 i R 1/2 K i (i = 1,..., n p), (2.15) em que K i representa a i-ésima coluna de K. Note que (l 1,..., l n p ) formam uma base ortogonal do espaço não nulo de Q. Pode-se mostrar que (Apêndice B.2) l i ˆε = π i K i R 1/2 Y, (2.16) Cov[l i ˆε, l jˆε] = σ 2 δ ij (i, j = 1,..., n p), (2.17)
32 2.3 Utilização do EBLUP 18 com δ ij = 1 se i = j e zero em caso contrário. Assim, (l i ˆε)/σ são resíduos padronizados, não correlacionados com fração de confundimento (2.12) igual a 1 π i. Denominaremos esses resíduos por resíduos com confundimento mínimo. Hilden-Minton (1995) sugere avaliar a hipótese de normalidade do erro condicional através dos resíduos com confundimento mínimo (l i ˆε)/σ (i = 1,..., n p) por intermédio do gráfico Q-Q com envelope simulado [Atkinson (1985)]. 2.3 Utilização do EBLUP Considerando o modelo (1.1), Z i γ i reflete a diferença entre o valor predito e o valor médio populacional predito para a i-ésima unidade experimental; logo pode-se utilizálo para encontrar possíveis unidades experimentais discrepantes, conforme sugerido em Waternaux et al. (1989), Verbeke (1995), Verbeke & Lesaffre (1996a), Pinheiro & Bates (2000) e Longford (2001), por exemplo. Pinheiro & Bates (2000), por exemplo, sugerem utilizar os gráficos dos elementos dos γ i, digamos ˆγ ij (j = 1,..., q) versus o índice das unidades experimentais. Tal gráfico é útil para identificar unidades experimentais que apresentam um valor discrepante para o j-ésimo elemento do seu respectivo BLUP. Levando em consideração que os γ i (i = 1,..., c) são comparáveis apenas quando as covariáveis de Z i são iguais para todas as unidades experimentais [Verbeke & Lesaffre (1996a)], podemos utilizar o gráfico dos elementos de Z i γ i, ou então utilizar a distância de Mahalanobis, ζ i = γ Var[ γ i i γ i ] γ i proposta por Waternaux et al. (1989) para encontrar unidades experimentais discrepantes. Sob a validade do modelo, tem-se ζ i χ 2 n i para n i suficientemente grande. Para verificar a plausibilidade da estrutura adotada para a matriz de covariâncias G dos efeitos aleatórios, Pinheiro & Bates (2000, p.187) sugerem utilizar o gráfico de dispersão múltiplo dos elementos dos BLUP. No Capítulo 3, é proposto um meio para avaliar quais unidades experimentais são sensíveis à hipótese de homogeneidade entre as matrizes de covariâncias dos efeitos aleatórios. Os EBLUP também servem para avaliar a suposição de normalidade do vetor de efeitos aleatórios γ. Lange & Ryan (1989) sugerem a utilização de um gráfico Q-Q ponderado pelas variâncias dos elementos de γ para avaliar a hipótese de normalidade dos efeitos aleatórios. Algumas críticas a respeito da proposta de Lange & Ryan (1989) são feitas em Hilden-Minton (1995), Verbeke (1995) e Verbeke & Molenberghs (1997). Jiang (2001) propõe um teste de aderência para avaliar a hipótese de que as distribuições de γ e ε são como especificadas; ele mostra que a distribuição nula assintótica do teste é
33 2.3 Utilização do EBLUP 19 uma mistura de distribuições qui-quadrado. As propostas dos dois artigos supracitados são válidas assintoticamente. Para obtenção do BLUE (1.13) e BLUP (1.17) não utilizamos a suposição de normalidade; tal suposição só é utilizada para encontrar o EMV dos parâmetros de covariância e seus respectivos erros-padrão. Uma alternativa é utilizar a função score obtida sob a suposição de normalidade de γ e ε para obter o respectivo EMV; tal procedimento é utilizado no método de MVR [Jiang (1996)]. Considerando que o vetor de médias Xβ e a matriz de covariâncias V estão corretamente especificados, Butler & Louis (1992), mostraram via simulação, que o BLUE não é afetado pela má especificação da distribuição de γ. Tal resultado foi confirmado teoricamente por Verbeke & Lesaffre (1996b) que mostraram que as estimativas do modelo (1.1) obtidas sob hipótese de normalidade são assintoticamente consistentes mesmo quando a distribuição de γ não é normal mas tem terceiro momento absoluto finito, sendo necessário apenas uma correção na matriz de covariâncias; essa condição é válida para as distribuições gama, log-normal, Weibull, t-student (se o número de graus de liberdade for maior que 3), Poisson, dentre outras. Denotando por L(ψ) a log-verossimilhança do modelo (1.1) sob a hipótese de normalidade, ψ, o respectivo vetor de parâmetros, U(ψ) = L(ψ)/ ψ, o vetor score, A(ψ) = 2 L(ψ)/ ψ ψ e B(ψ) = U(ψ)U(ψ), então um estimador robusto da matriz de covariâncias do EMV ψ [Verbeke & Lesaffre (1996b)] é Var[ ψ] = A( ψ) 1 B( ψ)a( ψ) 1. Esse estimador é conhecido como estimador sanduíche. Se o modelo é corretamente especificado, tem-se que A( ψ) B( ψ), implicando Var[ ψ] A( ψ) 1 que é a estimativa usual da matriz de covariâncias de ψ. Assim, se λ min λ max 1, com λ min e λ max denotando, respectivamente, o menor e o maior autovalor da matriz B( ψ)a( ψ) 1, temos indício de que o vetor de efeitos aleatórios tem distribuição normal. Em geral os erros-padrão robusto e não robusto (não corrigido) são muito similares para os BLUE, o que não ocorre para os erros-padrão dos estimadores dos parâmetros de covariância que tendem a serem subestimados pelos erros-padrão não corrigidos [Verbeke & Lesaffre (1997)]. Outras aproximações para os erros-padrão das estimativas das componentes de variância, obtidas sem a suposição de normalidade, estão implementadas no procedimento MIXED do SAS [SAS Institute Inc. (1997)]. No contexto de EEG, o estimador A( ψ) 1 é conhecido como estimador baseado no modelo (model-based) ou ingênuo (naive) e é consistente apenas quando o modelo está corretamente especificado; já o estimador robusto (sanduíche) é sempre consistente, porém pode apresentar um alto vício quando o número de unidades experimentais é pequeno.
Métodos de Diagnóstico para Modelos Lineares Mistos p.1/58
Métodos de Diagnóstico para Modelos Lineares Mistos Aluno: Juvêncio Santos Nobre juvencio@ime.usp.br Orientador: Prof. PhD Júlio da Motta Singer jmsinger@ime.usp.br IME-USP Métodos de Diagnóstico para
A Metodologia de Box & Jenkins
A Metodologia de Box & Jenins Aula 03 Bueno, 0, Capítulo 3 Enders, 009, Capítulo Morettin e Toloi, 006, Capítulos 6 a 8 A Metodologia Box & Jenins Uma abordagem bastante utilizada para a construção de
4 Modelos Lineares Generalizados
4 Modelos Lineares Generalizados Neste capítulo, serão apresentados arcabouços teóricos dos modelos lineares generalizados (MLGs) e como casos particulares desses modelos são aplicáveis ao problema da
Modelo de regressão estável aplicado a econometria
Modelo de regressão estável aplicado a econometria financeira Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br 1 Objetivos
MAE Introdução à Probabilidade e Estatística II Resolução Lista 5
MAE 229 - Introdução à Probabilidade e Estatística II Resolução Lista 5 Professor: Pedro Morettin e Profa. Chang Chian Exercício 1 (a) De uma forma geral, o desvio padrão é usado para medir a dispersão
Estimação e Testes de Hipóteses
Estimação e Testes de Hipóteses 1 Estatísticas sticas e parâmetros Valores calculados por expressões matemáticas que resumem dados relativos a uma característica mensurável: Parâmetros: medidas numéricas
Modelos de Regressão Linear Simples - Análise de Resíduos
Modelos de Regressão Linear Simples - Análise de Resíduos Erica Castilho Rodrigues 1 de Setembro de 2014 3 O modelo de regressão linear é dado por Y i = β 0 + β 1 x i + ɛ i onde ɛ i iid N(0,σ 2 ). O erro
Análise de modelos lineares mistos com dois fatores longitudinais: um fator quantitativo e um qualitativo ordinal.
Anais do XII Encontro Mineiro de Estatística - MGEST 013. Uberlândia - 0 e 06 de setembro de 013. Revista Matemática e Estatística em Foco - ISSN:318-0 Análise de modelos lineares mistos com dois fatores
Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.
1. Inferência Estatística Inferência Estatística é o uso da informção (ou experiência ou história) para a redução da incerteza sobre o objeto em estudo. A informação pode ou não ser proveniente de um experimento
MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel
MOQ-13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 e 16 Introdução à probabilidade (eventos,
Disciplina de Modelos Lineares
Disciplina de Modelos Lineares 2012-2 Seleção de Variáveis Professora Ariane Ferreira Em modelos de regressão múltipla é necessário determinar um subconjunto de variáveis independentes que melhor explique
Modelos de Regressão Múltipla - Parte VIII
1 Modelos de Regressão Múltipla - Parte VIII Erica Castilho Rodrigues 15 de Fevereiro de 2017 2 3 Observações não usuais 4 As observações não usuais podem ser: Outliers: não se ajustam bem ao modelo (resíduo
FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES
FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES 1 Os modelos lineares generalizados, propostos originalmente em Nelder e Wedderburn (1972), configuram etensões dos modelos lineares clássicos e permitem analisar a
Universidade Federal de Viçosa Departamento de Estatística
Universidade Federal de Viçosa Departamento de Estatística Prova Seletiva para o Programa de Pós-Graduação em Estatística Aplicada e Biometria. Nível Doutorado - 22/nov/2013 Nome: Assinatura:. Número do
AULAS 14 E 15 Modelo de regressão simples
1 AULAS 14 E 15 Modelo de regressão simples Ernesto F. L. Amaral 18 e 23 de outubro de 2012 Avaliação de Políticas Públicas (DCP 046) Fonte: Wooldridge, Jeffrey M. Introdução à econometria: uma abordagem
Modelos de regressão para dados correlacionados. Cibele Russo
Modelos de regressão para dados correlacionados Cibele Russo cibele@icmc.usp.br ICMC USP Mini-curso oferecido no Workshop on Probabilistic and Statistical Methods 28 a 30 de janeiro de 2013 Cibele Russo
Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47
CAPÍTULO 1 Conceitos preliminares 1 Introdução........................................................1 O que é estatística?.................................................. 4 Papel dos microcomputadores.........................................
Exemplos Modelos de Quase-Verossimilhança
Exemplos Modelos de Quase-Verossimilhança p. 1/40 Exemplos Modelos de Quase-Verossimilhança Gilberto A. Paula Departamento de Estatística IME-USP MAE5763 - Modelos Lineares Generalizados 2 o semestre de
Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos Capítulo 3 Introdução à Probabilidade e à Inferência Estatística Introdução ao Planejamento e Análise Estatística de Experimentos Agora,
Faturamento de Restaurantes
Faturamento de Restaurantes Gilberto A. Paula Departamento de Estatística IME-USP, Brasil giapaula@ime.usp.br 2 o Semestre 2016 G. A. Paula (IME-USP) Faturamento de Restaurantes 2 o Semestre 2016 1 / 29
Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança
Probabilidade e Estatística Prof. Dr. Narciso Gonçalves da Silva http://páginapessoal.utfpr.edu.br/ngsilva Estimação de Parâmetros Intervalo de Confiança Introdução A inferência estatística é o processo
AULA 11 Heteroscedasticidade
1 AULA 11 Heteroscedasticidade Ernesto F. L. Amaral 30 de julho de 2012 Análise de Regressão Linear (MQ 2012) www.ernestoamaral.com/mq12reg.html Fonte: Wooldridge, Jeffrey M. Introdução à econometria:
Intervalos de Confiança
Intervalos de Confiança INTERVALOS DE CONFIANÇA.1 Conceitos básicos.1.1 Parâmetro e estatística Parâmetro é a descrição numérica de uma característica da população. Estatística é a descrição numérica de
Distribuição Amostral e Estimação Pontual de Parâmetros
Roteiro Distribuição Amostral e Estimação Pontual de Parâmetros 1. Introdução 2. Teorema Central do Limite 3. Conceitos de Estimação Pontual 4. Métodos de Estimação Pontual 5. Referências População e Amostra
Análise da Regressão. Prof. Dr. Alberto Franke (48)
Análise da Regressão Prof. Dr. Alberto Franke (48) 91471041 O que é Análise da Regressão? Análise da regressão é uma metodologia estatística que utiliza a relação entre duas ou mais variáveis quantitativas
Procedimento Complementar para Validação de Métodos Analíticos e Bioanalíticos usando Análise de Regressão Linear
Procedimento Complementar para Validação de Métodos Analíticos e Bioanalíticos usando Análise de Regressão Linear Rogério Antonio de Oliveira 1 Chang Chiann 2 1 Introdução Atualmente, para obter o registro
CC-226 Aula 05 - Teoria da Decisão Bayesiana
CC-226 Aula 05 - Teoria da Decisão Bayesiana Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Classificador Bayesiano Considerando M classes C 1... C M. N observações x j. L atributos
Ajuste de mínimos quadrados
Capítulo 5 Ajuste de mínimos quadrados 5 Ajuste de mínimos quadrados polinomial No capítulo anterior estudamos como encontrar um polinômio de grau m que interpola um conjunto de n pontos {{x i, f i }}
4 Modelos de Regressão Dinâmica
4 Modelos de Regressão Dinâmica Nos modelos de regressão linear (Johnston e Dinardo, 1998) estudados comumente na literatura, supõe-se que os erros gerados pelo modelo possuem algumas características como:
MEEMF-2010 Aula 01. Noções de inferência estatística: Diferença entre máxima verossimilhança e abordagem bayesiana
MEEMF-2010 Aula 01 Noções de inferência estatística: Diferença entre máxima verossimilhança e abordagem bayesiana O que é inferência estatística? Inferência estatística é o importante ramo da Estatística
étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA
étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA UNIVERSIDADE DE JOÃO DEL-REI PRÓ-REITORIA DE PESQUISA CENTRO
O efeito interacção em modelos de equações estruturais
O efeito interacção em modelos de equações estruturais Maria de Fátima Salgueiro - ISCTE Business School, Lisboa fatima.salgueiro@iscte.pt XIV Congresso Anual da SPE - Covilhã 2006 XIV CONGRESSO DA SPE
Fernando de Pol Mayer
Fernando de Pol Mayer Laboratório de Estatística e Geoinformação (LEG) Departamento de Estatística (DEST) Universidade Federal do Paraná (UFPR) Este conteúdo está disponível por meio da Licença Creative
9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla
9 Correlação e Regressão 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla 1 9-1 Aspectos Gerais Dados Emparelhados há uma relação? se há, qual
ANÁLISE DE VARIÂNCIA. y j = µ + τ i + e i j = µ i + e i j
SUMÁRIO 1 Análise de Variância 1 1.1 O Teste F...................................... 1.2 Verificando as pressuposições do modelo..................... 5 1.2.1 Verificação de Normalidade.........................
Técnicas econométricas para avaliação de impacto O uso de algoritmos de emparelhamento baseados em escore de propensão propensity score matching
Técnicas econométricas para avaliação de impacto O uso de algoritmos de emparelhamento baseados em escore de propensão propensity score matching Bruno César Araújo Instituto de Pesquisa Econômica Aplicada
REGRESSÃO LINEAR Parte I. Flávia F. Feitosa
REGRESSÃO LINEAR Parte I Flávia F. Feitosa BH1350 Métodos e Técnicas de Análise da Informação para o Planejamento Julho de 2015 Onde Estamos Para onde vamos Inferência Esta5s6ca se resumindo a uma equação
Ralph S. Silva
ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S. Silva http://www.im.ufrj.br/ralph/multivariada.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário
Distribuições Amostrais
Distribuições Amostrais 1 Da população, com parâmetro, retira-se k amostras de tamanho n e calcula-se a estatística. Estas estatísticas são as estimativas de. As estatísticas, sendo variáveis aleatórias,
Exemplo Placas Dentárias
Exemplo Placas Dentárias Gilberto A. Paula Departamento de Estatística IME-USP, Brasil giapaula@ime.usp.br 2 o Semestre 2016 G. A. Paula (IME-USP) Placas Dentárias 2 o Semestre 2016 1 / 20 Placas Dentárias
ANÁLISE DOS RESÍDUOS. Na análise de regressão linear, assumimos que os erros E 1, E 2,, E n satisfazem os seguintes pressupostos:
ANÁLISE DOS RESÍDUOS Na análise de regressão linear, assumimos que os erros E 1, E 2,, E n satisfazem os seguintes pressupostos: seguem uma distribuição normal; têm média zero; têm variância σ 2 constante
INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA
UFPE - Universidade Federal de Pernambuco Departamento de Estatística Disciplina: ET-406 Estatística Econômica Professor: Waldemar A. de Santa Cruz Oliveira Júnior INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA Podemos
GILSON BARBOSA DOURADO
CORREÇÃO DE VIÉS DO ESTIMADOR DE MÁXIMA VEROSSIMILHANÇA PARA A FAMÍLIA EXPONENCIAL BIPARAMÉTRICA GILSON BARBOSA DOURADO Orientador: Klaus Leite Pinto Vasconcellos Área de concentração: Estatística Matemática
Amostragem e distribuições por amostragem
Amostragem e distribuições por amostragem Carla Henriques e Nuno Bastos Departamento de Matemática Escola Superior de Tecnologia de Viseu Contabilidade e Administração População, amostra e inferência estatística
1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.
1 1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3. Modelo de Resultados Potenciais e Aleatorização (Cap. 2 e 3
Matriz de Variância e Covariância e o Teorema de Gauss-Markov
1 Matriz de Variância e Covariância e o Teorema de Gauss-Markov Reginaldo J Santos Departamento de Matemática-ICEx Universidade Federal de Minas Gerais http://wwwmatufmgbr/~regi 26 de setembro de 2001
Inferência para várias populações normais análise de variância (ANOVA)
Inferência para várias populações normais análise de variância (ANOVA) Capítulo 15, Estatística Básica (Bussab&Morettin, 8a Edição) 9a AULA 11/05/2015 MAE229 - Ano letivo 2015 Lígia Henriques-Rodrigues
Medidas de Dispersão. Prof.: Joni Fusinato
Medidas de Dispersão Prof.: Joni Fusinato joni.fusinato@ifsc.edu.br jfusinato@gmail.com 1 Dispersão Estatística As medidas de posição (média, mediana, moda) descrevem características dos valores numéricos
AULA 07 Inferência a Partir de Duas Amostras
1 AULA 07 Inferência a Partir de Duas Amostras Ernesto F. L. Amaral 10 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola,
AULAS 25 E 26 Heteroscedasticidade
1 AULAS 25 E 26 Heteroscedasticidade Ernesto F. L. Amaral 10 e 15 de junho de 2010 Métodos Quantitativos de Avaliação de Políticas Públicas (DCP 030D) Fonte: Wooldridge, Jeffrey M. Introdução à econometria:
MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência
MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência Introdução 1 Muito frequentemente fazemos perguntas do tipo se alguma coisa tem relação com outra. Estatisticamente
3 Modelos Comparativos: Teoria e Metodologia
3 Modelos Comparativos: Teoria e Metodologia Para avaliar o desempenho do modelo STAR-Tree, foram estimados os modelos Naive, ARMAX e Redes Neurais. O ajuste dos modelos ARMAX e das redes neurais foi feito
DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)
1. Sabe-se que o nível de significância é a probabilidade de cometermos um determinado tipo de erro quando da realização de um teste de hipóteses. Então: a) A escolha ideal seria um nível de significância
Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência
Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Erica Castilho Rodrigues 12 de Agosto Introdução 3 Vimos como usar Poisson para testar independência em uma Tabela 2x2.
INTRODUÇÃO A MODELOS MISTOS
INTRODUÇÃO A MODELOS MISTOS Delineamento experimental ou desenho experimental, de uma forma bastante simples, é a forma em que os tratamentos (níveis de um fator ou combinações de níveis de fatores) são
PROBABILIDADE E ESTATÍSTICA. Profa. Dra. Yara de Souza Tadano
PROBABILIDADE E ESTATÍSTICA Profa. Dra. Yara de Souza Tadano yaratadano@utfpr.edu.br Aula 4 09/2014 Estatística Descritiva Medidas de Variação Probabilidade e Estatística 3/42 Medidas de Variação Vamos
Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:
Pessoal, trago a vocês a resolução da prova de Estatística do concurso para Auditor Fiscal aplicada pela FCC. Foram 10 questões de estatística! Não identifiquei possibilidade para recursos. Considero a
TESTES NÃO PARAMÉTRICOS (para mediana/média)
MAE212: Introdução à Probabilidade e à Estatística II - Profas. Beti e Chang (2012) 1 TESTES NÃO PARAMÉTRICOS (para mediana/média) Os métodos de estimação e testes de hipóteses estudados até agora nessa
AULA 02 Distribuição de Probabilidade Normal
1 AULA 02 Distribuição de Probabilidade Normal Ernesto F. L. Amaral 20 de agosto de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario
Testes de Aderência, Homogeneidade e Independência
Testes de Aderência, Homogeneidade e Independência Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais O que é um teste de hipótese? Queremos saber se a evidência que temos em mãos significa
INFERÊNCIA ESTATÍSTICA. ESTIMAÇÃO PARA A PROPORÇÃO POPULACIONAL p
INFERÊNCIA ESTATÍSTICA ESTIMAÇÃO PARA A PROPORÇÃO POPULACIONAL p Objetivo Estimar uma proporção p (desconhecida) de elementos em uma população, apresentando certa característica de interesse, a partir
Planejamento de Experimentos. 13. Experimentos com fatores aleatórios
Planejamento de Experimentos 13. Experimentos com fatores aleatórios Até aqui assumimos que os fatores nos experimentos eram fixos, isto é, os níveis dos fatores utilizados eram níveis específicos de interesse.
IND 1115 Inferência Estatística Aula 6
Conteúdo IND 5 Inferência Estatística Aula 6 Setembro de 004 A distribuição Lognormal A distribuição Beta e sua relação com a Uniforme(0,) Mônica Barros mbarros.com mbarros.com A distribuição Lognormal
Funções Geradoras de Variáveis Aleatórias. Simulação Discreta de Sistemas - Prof. Paulo Freitas - UFSC/CTC/INE
Funções Geradoras de Variáveis Aleatórias 1 Funções Geradoras de Variáveis Aleatórias Nos programas de simulação existe um GNA e inúmeras outras funções matemáticas descritas como Funções Geradoras de
INTRODUÇÃO. Exemplos. Comparar três lojas quanto ao volume médio de vendas. ... ANÁLISE DE VARIÂNCIA. Departamento de Matemática ESTV.
INTRODUÇÃO Exemplos Para curar uma certa doença existem quatro tratamentos possíveis: A, B, C e D. Pretende-se saber se existem diferenças significativas nos tratamentos no que diz respeito ao tempo necessário
ALTERNATIVAS PARA ANÁLISE DE DADOS NUTRICIONAIS
Universidade de Brasília IE Departamento de Estatística Estágio Supervisionado II ANA LUIZA COELHO BARBOSA ALTERNATIVAS PARA ANÁLISE DE DADOS NUTRICIONAIS Brasília Julho, 2014 ANA LUIZA COELHO BARBOSA
Revisão de distribuições de probabilidades contínuas (Capítulo 6 Levine)
Revisão de distribuições de probabilidades contínuas (Capítulo 6 Levine) Statistics for Managers Using Microsoft Excel, 5e 2008 Pearson Prentice-Hall, Inc. Chap 6-1 Objetivos: Neste capítulo, você aprenderá:
Medidas de Dispersão ou variabilidade
Medidas de Dispersão ou variabilidade A média - ainda que considerada como um número que tem a faculdade de representar uma série de valores - não pode, por si mesma, destacar o grau de homogeneidade ou
Intervalos de Confiança
Intervalos de Confiança Carla Henriques e Nuno Bastos Departamento de Matemática Escola Superior de Tecnologia de Viseu Carla Henriques e Nuno Bastos (DepMAT) Intervalos de Confiança 2010/2011 1 / 33 Introdução
Matrizes Semelhantes e Matrizes Diagonalizáveis
Diagonalização Matrizes Semelhantes e Matrizes Diagonalizáveis Nosso objetivo neste capítulo é estudar aquelas transformações lineares de R n para as quais existe pelo menos uma base em que elas são representadas
Modelagem estatística da captura da broca-do-café (Hypothenemus hampei) ao longo do tempo 1
Modelagem estatística da captura da broca-do-café (Hypothenemus hampei) ao longo do tempo 1 Alessandra dos Santos 2 ernando de Pol Mayer 2 Rafael de Andrade Moral 2 Luiz Henrique Costa Mota 3 Clarice Garcia
Pressuposições à ANOVA
UNIVERSIDADE FEDERAL DE RONDÔNIA CAMPUS DE JI-PARANÁ DEPARTAMENTO DE ENGENHARIA AMBIENTAL Estatística II Aula do dia 09.11.010 A análise de variância de um experimento inteiramente ao acaso exige que sejam
1 Introdução aos Métodos Estatísticos para Geografia 1
1 Introdução aos Métodos Estatísticos para Geografia 1 1.1 Introdução 1 1.2 O método científico 2 1.3 Abordagens exploratória e confirmatória na geografia 4 1.4 Probabilidade e estatística 4 1.4.1 Probabilidade
Centro Internacional de Pobreza (PNUD/IPEA) Fabio Veras Soares. Estimação do Impacto de Múltiplos Tratamentos e do. Escore de Propensão Generalizado
Estimação do Impacto de Múltiplos Tratamentos e do Efeito Dosagem: Escore de Propensão Generalizado Fabio Veras Soares Centro Internacional de Pobreza (PNUD/IPEA) Vimos nas aulas anteriores que o escore
Estatística I Aula 8. Prof.: Patricia Maria Bortolon, D. Sc.
Estatística I Aula 8 Prof.: Patricia Maria Bortolon, D. Sc. MODELOS PROBABILÍSTICOS MAIS COMUNS VARIÁVEIS ALEATÓRIAS CONTÍNUAS Lembram o que vimos sobre V.A. contínua na Aula 6? Definição: uma variável
Teoria dos Jogos Algorítmica Maximização de Lucros no Design de Mecanismos
Teoria dos Jogos Algorítmica Maximização de Lucros no Design de Mecanismos Luis Gustavo Rocha Vianna. Instituto de Matemática e Estatística IME Universidade de São Paulo USP Maximização de Lucros Design
AULA 13 Análise de Regressão Múltipla: MQO Assimptótico
1 AULA 13 Análise de Regressão Múltipla: MQO Assimptótico Ernesto F. L. Amaral 15 de abril de 2010 Métodos Quantitativos de Avaliação de Políticas Públicas (DCP 030D) Fonte: Wooldridge, Jeffrey M. Introdução
Matriz de Variância e Covariância e o Teorema de Gauss-Markov
Matriz de Variância e Covariância e o Teorema de Gauss-Markov Reginaldo J Santos Departamento de Matemática-ICEx Universidade Federal de Minas Gerais http://wwwmatufmgbr/~regi regi@matufmgbr 26 de setembro
Qualidade na empresa. Fundamentos de CEP. Gráfico por variáveis. Capacidade do processo. Gráficos por atributos. Inspeção de qualidade
Roteiro da apresentação Controle de Qualidade 2 3 Lupércio França Bessegato UFMG Especialização em Estatística 4 5 Abril/2007 6 7 Exemplo: Sacos de Leite : Volume de cada saco (ml) do Controle Estatístico
DELINEAMENTO EM BLOCOS AO ACASO
DELINEAMENTO EM BLOCOS AO ACASO Sempre que não houver condições experimentais homogêneas, devemos utilizar o principio do controle local, instalando Blocos, casualizando os tratamentos, igualmente repetidos.
Introdução à Inferência Estatística
Introdução à Inferência Estatística Capítulo 10, Estatística Básica (Bussab&Morettin, 7a Edição) 2a AULA 02/03/2015 MAE229 - Ano letivo 2015 Lígia Henriques-Rodrigues 2a aula (02/03/2015) MAE229 1 / 16
Técnicas Multivariadas em Saúde
Roteiro Técnicas Multivariadas em Saúde Lupércio França Bessegato Dep. Estatística/UFJF 1. Introdução 2. Distribuições de Probabilidade Multivariadas 3. Representação de Dados Multivariados 4. Testes de
Dimensionamento de amostras para regressão logística
Dimensionamento de amostras para regressão logística Arminda Lucia Siqueira 1 Flávia Komatsuzaki 1 Introdução Regressão logística é hoje padrão de análise para muitos estudos da área da saúde cuja variável
TÉCNICAS DE AMOSTRAGEM
TÉCNICAS DE AMOSTRAGEM Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Definições e Notação Estimação Amostra Aleatória
MODELAGEM E ESCOLHA ENTRE EMBALAGENS USANDO TÉCNICAS DE CONFIABILIDADE E ANÁLISE DE
Revista da Estatística da UFOP, Vol I, 2011 - XI Semana da Matemática e III Semana da Estatística, 2011 ISSN 2237-8111 MODELAGEM E ESCOLHA ENTRE EMBALAGENS USANDO TÉCNICAS DE CONFIABILIDADE E ANÁLISE DE
Prof. Dr. Engenharia Ambiental, UNESP
INTRODUÇÃO A ESTATÍSTICA ESPACIAL Análise Exploratória dos Dados Estatística Descritiva Univariada Roberto Wagner Lourenço Roberto Wagner Lourenço Prof. Dr. Engenharia Ambiental, UNESP Estrutura da Apresentação
Análise da Regressão múltipla: Inferência. Aula 4 6 de maio de 2013
Análise da Regressão múltipla: Inferência Revisão da graduação Aula 4 6 de maio de 2013 Hipóteses do modelo linear clássico (MLC) Sabemos que, dadas as hipóteses de Gauss- Markov, MQO é BLUE. Para realizarmos
Capítulo 3: Elementos de Estatística e Probabilidades aplicados à Hidrologia
Departamento de Engenharia Civil Prof. Dr. Doalcey Antunes Ramos Capítulo 3: Elementos de Estatística e Probabilidades aplicados à Hidrologia 3.1 - Objetivos Séries de variáveis hidrológicas como precipitações,
Distribuições derivadas da distribuição Normal. Distribuição Normal., x real.
Distribuições derivadas da distribuição Normal Distribuição Normal Uma variável aleatória X tem distribuição normal com parâmetros µ e σ, quando sua densidade de probabilidade é f ( x) π σ e ( x µ ) σ,
Análise de Dados e Simulação
Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco Simulação de Variáveis Aleatórias Contínuas. O método da Transformada Inversa Teorema Seja U U (0,1). Para qualquer
PARTE TEÓRICA Perguntas de escolha múltipla
PROBABILIDADES E ESTATÍSTICA MIEEC/FEUP PARTE TEÓRICA Perguntas de escolha múltipla 1 Dada a experiência aleatória ε define-se espaço amostral associado a ε como sendo: A O espaço físico onde se realiza
Estatística II Aula 2. Prof.: Patricia Maria Bortolon, D. Sc.
Estatística II Aula Prof.: Patricia Maria Bortolon, D. Sc. Distribuições Amostrais ... vocês lembram que: Antes de tudo... Estatística Parâmetro Amostra População E usamos estatíticas das amostras para
Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência
Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Erica Castilho Rodrigues 2 de Agosto de 2013 3 Modelos de Poisson podem ser usados para analisar tabelas de contingência.
CE001 - BIOESTATÍSTICA TESTE DO QUI-QUADRADO
CE001 - BIOESTATÍSTICA TESTE DO QUI-QUADRADO Ana Paula Araujo Correa Eder Queiroz Newton Trevisan DEFINIÇÃO É um teste de hipóteses que se destina a encontrar um valor da dispersão para duas variáveis
Conceito de Estatística
Conceito de Estatística Estatística Técnicas destinadas ao estudo quantitativo de fenômenos coletivos, observáveis. Unidade Estatística um fenômeno individual é uma unidade no conjunto que irá constituir
Capítulo 3. O Modelo de Regressão Linear Simples: Especificação e Estimação
Capítulo 3 O Modelo de Regressão Linear Simples: Especificação e Estimação Introdução Teoria Econômica Microeconomia: Estudamos modelos de oferta e demanda (quantidades demandadas e oferecidas dependem
Modelos Lineares Generalizados - Introdução
Modelos Lineares Generalizados - Erica Castilho Rodrigues 18 de Março de 2014 3 Por que queremos modelar os dados? A forma do modelo revela padrões de interação e associação nos dados. Através de procedimentos
TÉCNICAS DE AMOSTRAGEM
TÉCNICAS DE AMOSTRAGEM Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Amostragem estratificada Divisão da população em
Tópico 3. Estudo de Erros em Medidas
Tópico 3. Estudo de Erros em Medidas A medida de uma grandeza é obtida, em geral, através de uma experiência, na qual o grau de complexidade do processo de medir está relacionado com a grandeza em questão
2. METODOLOGIA DE PESQUISA
2. METODOLOGIA DE PESQUISA O presente capítulo apresenta a metodologia de pesquisa proposta e procura-se dar uma visão geral do que será feito para atingir os objetivos. Está dividido em seis partes: i)