MÉTODO DE ORIENTAÇÃO À MODELAGEM DE

Documentos relacionados
O problema da superdispersão na análise de dados de contagens

O problema da superdispersão na análise de dados de contagens

Modelagem da proporção de produtos defeituosos usando Modelo de Quase-verossimilhança

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

MODELOS DE REGRESSÃO PARAMÉTRICOS

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

3 A técnica de computação intensiva Bootstrap

4 Critérios para Avaliação dos Cenários

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

Regressão Múltipla. Parte I: Modelo Geral e Estimação

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

Associação entre duas variáveis quantitativas

REGRESSÃO NÃO LINEAR 27/06/2017

Prof. Lorí Viali, Dr.

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

Análise de Regressão Linear Múltipla VII

2 Incerteza de medição

MODELAGEM CONJUNTA DE MÉDIA E VARIÂNCIA EM EXPERIMENTOS FRACIONADOS SEM REPETIÇÃO UTILIZANDO GLM

Prof. Lorí Viali, Dr.

AULA EXTRA Análise de Regressão Logística

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados

1. CORRELAÇÃO E REGRESSÃO LINEAR

Análise de influência

Testes não-paramétricos

5 Métodos de cálculo do limite de retenção em função da ruína e do capital inicial

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall

Gráficos de Controle para Processos Autocorrelacionados

PRESSUPOSTOS DO MODELO DE REGRESSÃO

UNIVERSIDADE DE PERNAMBUCO. Física Experimental. Prof o José Wilson Vieira

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

DELINEAMENTOS EXPERIMENTAIS

Reconhecimento Estatístico de Padrões

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados

Algarismos Significativos Propagação de Erros ou Desvios

Prof. Lorí Viali, Dr.

Estatística II Antonio Roque Aula 18. Regressão Linear

5 Implementação Procedimento de segmentação

Capítulo 1. Exercício 5. Capítulo 2 Exercício

Métodos Avançados em Epidemiologia

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Cap. 11 Correlação e Regressão

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16%

CORRELAÇÃO E REGRESSÃO

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

3 Algoritmos propostos

Análise de Regressão

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma

Análise de Regressão Linear Múltipla IV

3 Elementos de modelagem para o problema de controle de potência

Modelagem do crescimento de clones de Eucalyptus via modelos não lineares

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

Análise de Variância. Comparação de duas ou mais médias

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

Classificação de Padrões

INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA

5 Análise Conjunta da Média e da Dispersão

Capítulo 2. Modelos de Regressão

Cap. IV Análise estatística de incertezas aleatórias

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

2 Metodologia de Medição de Riscos para Projetos

Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz Departamento de Ciências Exatas

Modelo Logístico. Modelagem multivariável com variáveis quantitativas e qualitativas, com resposta binária.

PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 2010/2011

Regressão Linear Simples by Estevam Martins

Análise Exploratória de Dados

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Classificadores Lineares. Luiz Eduardo S. Oliveira, Ph.D.

ÍNDICE DE CONSISTÊNCIA TEMPORAL: UM NOVO MÉTODO PARA AVALIAÇÃO DA ESTABILIDADE TEMPORAL DE ARMAZENAMENTO DE ÁGUA NO SOLO

8.16. Experimentos Fatoriais e o Fatorial Fracionado

Aula Características dos sistemas de medição

DIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS

Psicologia Conexionista Antonio Roque Aula 8 Modelos Conexionistas com tempo contínuo

7 - Distribuição de Freqüências

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

Modelagem conjunta da média e variância utilizando GLM

SELEÇÃO DE MODELOS VOLUMÉTRICOS PARA CLONES DE EUCALYPTUS SPP., NO PÓLO GESSEIRO DO ARARIPE

Estudo e Previsão da Demanda de Energia Elétrica. Parte II

Teoria Elementar da Probabilidade

Cálculo Numérico BCC760 Interpolação Polinomial

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

6 Modelo Proposto Introdução

AEP FISCAL ESTATÍSTICA

Contabilometria. Aula 8 Regressão Linear Simples

ESTUDO DE MODELOS PARA AJUSTE E PREVISÃO DE UMA SÉRIE TEMPORAL

Programa de Certificação de Medidas de um laboratório

6 Análises de probabilidade de ruptura de um talude

GARANTIA DE EXCELENTE INTERCAMBIALIDADE E REDUÇÃO DE CUSTOS ATRAVÉS DA ANÁLISE ESTATÍSTICA DE TOLERÂNCIAS

3 Método Numérico. 3.1 Discretização da Equação Diferencial

Experiência V (aulas 08 e 09) Curvas características

Estatística Espacial: Dados de Área

Eletroquímica 2017/3. Professores: Renato Camargo Matos Hélio Ferreira dos Santos.

Transcrição:

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL ESCOLA DE ENGENHARIA PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE PRODUÇÃO MÉTODO DE ORIENTAÇÃO À MODELAGEM DE DADOS MENSURADOS EM PROPORÇÃO Ângelo Márco Olvera Sant Anna Porto Alegre, 2006

1 UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL ESCOLA DE ENGENHARIA PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE PRODUÇÃO MÉTODO DE ORIENTAÇÃO À MODELAGEM DE DADOS MENSURADOS EM PROPORÇÃO Ângelo Márco Olvera Sant Anna Orentador: Prof.ª Carla Schwengber ten Caten, Dr.ª Banca Examnadora: José Lus Duarte Rbero, Dr. Prof. Depto. de Engenhara de Produção e Transporte / UFRGS Lane Werner, Dr.ª Prof. Depto. de Estatístca / UFRGS Flávo Augusto Zegelmann, Ph.D. Prof. Depto. de Estatístca / UFRGS Dssertação submetda ao Programa de Pós-Graduação em Engenhara de Produção como requsto parcal à obtenção do título de MESTRE EM ENGENHARIA DE PRODUÇÃO Área de concentração: Engenhara da Qualdade Porto Alegre, Março / 2006

2 Esta dssertação fo julgada adequada para a obtenção do título de Mestre em Engenhara de Produção e aprovada em sua forma fnal pelo Orentador e pela Banca Examnadora desgnada pelo Programa de Pós-Graduação em Engenhara de Produção. Prof. ª Carla Schwengber ten Caten, Dr.ª PPGEP / UFRGS Orentadora Prof. Lus Antôno Lndau, Ph.D. Coordenador PPGEP / UFRGS Banca Examnadora: José Lus Duarte Rbero, Dr. Prof. Departamento de Engenhara de Produção e Transporte / UFRGS Lane Werner, Dr.ª Prof.ª Departamento de Estatístca / UFRGS Flávo Augusto Zegelmann, Ph.D Prof. Departamento de Estatístca / UFRGS

3 Dedco este trabalho ao meu pa Walmr, pelo carnho, amor, compreensão, ncentvo, estímulo e orentações. Mnha gratdão!

4 AGRADECIMENTOS A Deus e aos Orxás que me deram forças para vencer mas uma etapa. À mnha mãe, Marnalva, e meu padrasto, Waldomro, pelo amor ncondconal, pelos valores transmtdos, ncentvo, esforço e luta desde os meus prmeros passos. Aos meus rmãos, em especal a Valmar, pelo carnho e estímulo; a mnha cunhada Clese. À mnha dnda, Naty, e meu tozão, Clóvs, pelo carnho e ncentvo em todos os momentos. A mnha namorada Vanessa, pela compreensão, carnho, amor e companhersmo. À mnha orentadora Carla ten Caten, pelo estímulo, orentação e vsão prátca da Engenhara. À professora La Gumarães, pela confança, ncentvo, amzade, pela oportundade de aprender sobre a Ergonoma e pelo carnho ncondconal em todos os momentos. Aos professores do Programa de Mestrado em Engenhara de Produção UFRGS, por suas contrbuções. A famíla Carballo, em especal a Marana, pelo apoo, atenção e afeto de todos, quando dos meus prmeros momentos nesta cdade. Ao meu grande amgo Gustavo (gugunha), pela sua amzade, afeto e apoo; amgo em todos os momentos. Ao meu grande amgo/rmão Alex (Léo), pela sua amzade, pelo carnho e pelas sugestões e partcpação, mesmo que dstante. A todos os amgos e colegas do LOPP - PPGEP, pelo companhersmo, e bom convívo nestes dos anos, em especal a Cleber, Crstane, Fabano, Fláva, Leandro e Morgana, pela amzade e alegras compartlhadas. Aos amgos, Mara, Fernanda (baana), Gustavo (gugão), Danel e Crstóvão, pelos momentos de amzade e parceras. A todos que partcparam dreta e ndretamente da concretzação deste deal e conclusão deste trabalho.

5 A únca cosa que nterfere com meu aprendzado, é a mnha educação. Albert Ensten Procure ser um homem de valor, em vez de procurar ser um homem de sucesso. Albert Ensten Nenhuma conqusta é mportante, quando não se tem alguém para dvd-las. Roger Martn

6 RESUMO A mplementação de técncas estatístcas, como modelos de regressão, permte conhecer os efetos dos fatores sobre a característca de qualdade de um produto, contrbundo na melhora da qualdade de produtos e processos. O objetvo desta dssertação consste em elaborar um método que orente à modelagem de dados mensurados em proporção, levando em consderação a classfcação das varáves dependentes e ndependentes, com enfoque no Modelo de Regressão Beta e no Modelo de Quaseverossmlhança. O método é lustrado com um estudo em uma empresa curtdora da regão do Vale do Ro dos Snos no Ro Grande do Sul. A modelagem realzada neste estudo referuse a proporção de produtos refugados no processo de produção por erro de classfcação. Os Modelos de Regressão Beta e de Quase-verossmlhança apresentaram bom ajuste e mostraram-se adequados na modelagem da proporção de produtos por erros de classfcação. Esses modelos podem ser estenddos a todos os processos ndustras que envolvam a produção de produtos não conformes às especfcações de fabrcação (defetuosos). O método elaborado apresentou facldade de entendmento e clareza dos passos para a escolha dos modelos de regressão usados na modelagem de dados mensurados em proporção. Palavras-chave: Modelos de Regressão, Proporção, Modelo de Regressão Beta, Modelo de Quase-verossmlhança, Controle de Qualdade.

7 ABSTRACT The mplementaton of statstcal technques, as regresson models, allows to know the effects of the factors on the characterstc of qualty of a products, contrbutng n the mprovement of the qualty of products and processes. The objectve of ths dssertaton conssts of elaboratng a method to gude the modellng of data measured n proporton, takng nto account the classfcaton of the dependent and ndependent varables, wth focus n Beta Regresson Model and n the Quas-lkelhood Model. The method s llustrated wth a study n a company of leather of the area of the valley of Ro of the Bells n Ro Grande do Sul. The modellng accomplshed n ths study referred the proporton of products rejected n the producton process by mstake of classfcaton. Beta Regresson Model and Quas-lkelhood Model presented good adjustment and were shown approprate n the modellng of the proporton of products for classfcaton mstakes. These models can be extended the all of the ndustral processes that nvolve the producton of products out-of-specfcatons (defectve). The elaborated method presented easness and clarty of the steps for choce of the regresson models used n the modellng of data measured n proporton. Key word: Regresson Models, Proporton, Beta Regresson Model, Quas-lkelhood Model, Qualty Control.

8 SUMÁRIO LISTA DE FIGURAS...10 LISTA DE TABELAS...11 1 INTRODUÇÃO...12 1.1 Tema...13 1.2 Objetvos...14 1.2.1 Objetvo Geral...14 1.2.2 Objetvos Específcos...14 1.3 Justfcatva do Tema e Objetvo...14 1.4 Método...17 1.4.1 Método de Pesqusa...17 1.4.2 Método de Trabalho...18 1.5 Estrutura do Trabalho...20 1.6 Delmtações...21 2 REFERENCIAL TEÓRICO...22 2.1 Gráfco de Representação de Sstemas...22 2.2 Modelo Lnear Generalzado...23 2.2.1 Introdução...23 2.2.2 Famíla Exponencal...24 2.2.3 Componentes do Modelo...26 2.2.4 Método de Estmação...29 2.2.5 Teste de Sgnfcânca dos Parâmetros...33 2.2.6 Modelo de Quase-verossmlhança...33 2.3 Modelo de Regressão Beta...37 2.3.1 Introdução...37 2.3.2 Famíla Beta...38

9 2.3.3 Componentes do Modelo...40 2.3.4 Método de Estmação...42 2.3.5 Teste de Sgnfcânca dos Parâmetros...45 2.3.6 Modelo Beta...45 2.4 Meddas de Dagnóstco...47 2.4.1 Introdução...47 2.4.2 Tpos de Meddas de Dagnóstco...48 2.5 Síntese dos Modelos comtemplados no Método...55 3 MÉTODO PROPOSTO...64 3.1 Introdução...64 3.2 Classfcação de Varáves...65 3.3 Classfcação dos Modelos comtemplados no Método...67 3.3.1 Modelo de Regressão Lnear Normal...67 3.3.2 Modelo Logístco Lnear...67 3.3.3 Modelo Probt...67 3.3.4 Modelo Logt...68 3.3.5 Modelo Log-lnear...68 3.3.6 Modelo Posson...68 3.3.7 Modelo Bnomal Negatva...68 3.3.8 Modelo de Quase-verossmlhança...68 3.3.9 Modelo Beta...68 3.4 Estrutura do Método...69 4 APLICAÇÃO DO MÉTODO...72 4.1 Introdução...72 4.2 Utlzação do Método...74 4.2.1 Análse dos Modelos Sugerdos...75 4.2.2 Estrutura dos Modelos Ajustados...78 4.2.3 Análse do Ajuste dos Modelos...80 4.2.4 Análse de Adeqüabldade dos Modelos...83 4.3 Comparação sobre os Modelos de Regressão...88 5 CONSIDERAÇÕES FINAIS...90 5.1 Sugestões para trabalhos futuros...92 REFERÊNCIAS BIBLIOGRÁFICAS...93 APÊNDICE A...99 APÊNDICE B...101

10 LISTA DE FIGURAS Fgura 1 Classfcações das pesqusas segundo Slva e Menezes (2001)...17 Fgura 2 Etapas de execução do método de trabalho...18 Fgura 3 Método proposto para orentação à modelagem de dados mensurados em proporção...71 Fgura 4 Planlha dos dados de classfcação do couro no estágo wet blue...74 Fgura 5 Gráfco da proporção por erro de classfcação versus o índce das observações...76 Fgura 6 Gráfcos das proporções por erro de classfcação em função das varáves ndependentes: seleção, procedênca, classfcador e rebaxamento....78 Fgura 7 Gráfcos de dagnóstco, resíduo devance e resíduo padronzado, para os dados com o ajuste dos Modelos de Quase-verossmlhança e Modelo Beta...84 Fgura 8 Gráfcos de dagnóstco, resíduo padronzado e dstânca de Cook, para os dados com o ajuste dos Modelos de Quase-verossmlhança e Modelo Beta...85 Fgura 9 Gráfcos de dagnóstco, alavanca generalzada e envelope smulado, para os dados com o ajuste dos Modelos de Quase-verossmlhança e Modelo Beta...87 Fgura 10 Vantagens e Desvantagens no uso dos Modelos de Quase-verossmlhança e Modelo Beta...89 Fgura 11 Planlha de coleta de dados de classfcação dos couros no estágo wet blue......100

11 LISTA DE TABELAS Tabela 1 Característcas das prncpas dstrbuções de probabldade da famíla exponencal... 25 Tabela 2 Méda e Varânca das prncpas dstrbuções de probabldade da famíla exponencal... 25 Tabela 3 Forma dos componentes da Varânca das prncpas dstrbuções da famíla exponencal... 26 Tabela 4 Classfcação das varáves por tpo de mensuração... 65 Tabela 5 Caracterzação dos níves dos Fatores Controláves... 77 Tabela 6 Estmatvas dos parâmetros e Erros padrões dos Modelos de Regressão propostos... 81 Tabela 7 Estmatvas e Erros padrões dos parâmetros sgnfcatvos dos Modelos de Regressão propostos... 81

12 1 INTRODUÇÃO O cenáro mundal atual é de ntensa compettvdade devdo ao desenvolvmento tecnológco rápdo de produtos e processos, vsando buscar tens que tenham característcas de qualdade sem defeto. Esta compettvdade vem obrgando as empresas a aprmorarem-se rápda e progressvamente na mplementação de técncas e conhecmentos centífcos para fazer frente ao crescmento constante da competção. Também é de conhecmento que, em processos de manufatura, a mplementação de técncas permte elmnar desperdícos, reduzr os índces de produtos refugados, dmnur a necessdade da realzação de nspeção e aumentar a satsfação dos clentes. Em um processo de manufatura, pode ser defndo um conjunto de causas ou fatores que tem como objetvo produzr determnado efeto e que apresenta uma ou mas respostas observáves, por exemplo, um produto conforme às especfcações recomendadas. Mutas vezes não se conseguem controlar todas as causas de varação, pos certas causas são nerentes ao processo (Montgomery, 2001). Causas de varação que nterferem num processo podem gerar a produção de tens não conformes às especfcações preestabelecdas, os quas podem ser mensurados avalando-se a sua proporção. A estatístca objetva explcar por que, eventualmente, ocorre a produção de tens não conformes ou defetuosos e descobrr que causas poderam estar nfluencando tal produção. Deseja-se também saber em quanto cada causa afeta o resultado. Tas questonamentos conduzem ao problema de construção de um modelo de regressão em que a varável dependente, que descreve a proporção de produtos não conformes (defetuosos), é uma varável dependente contínua. Esse fato afeta a escolha de um modelo de regressão. Segundo Montgomery e Peck (1992), modelos de regressão consstem numa técnca estatístca de nvestgação e modelagem que relacona a varável dependente a demas varáves ndependentes. Assm, deseja-se descrever os efetos de um conjunto de nformações adconas, chamados de varáves explcatvas ou ndependentes, sobre a proporção de produtos não conformes (defetuosos), e a modelagem desses efetos pode ser uma estratéga efcente. Conforme Hamada e Nelder (1997), um modelo de regressão que apresenta um bom ajuste usualmente permte gerar boas estmatvas das probabldades dos efetos assocados à varável dependente.

13 Segundo Cox (1996), a modelagem da proporção em um determnado conjunto de observações, por meo de um modelo de regressão lnear normal, nem sempre é recomendada, uma vez que este modelo requer a suposção de que as proporções seguem a dstrbução normal. Segundo Keschnck e McCullogh (2003), o uso do modelo de regressão lnear normal na modelagem de proporções ou frações como varável dependente, é um modelo falho, pos possblta a prevsão de valores fora do lmte do ntervalo [0,1]. Os Modelos Lneares Generalzados apresentam-se como uma nova forma de nvestgação e modelagem de dados em proporção. Conforme Myers et al. (2002), a teora dos Modelos Lneares Generalzados apresenta opções para a dstrbução da varável dependente, permtndo que dados provenentes de uma dstrbução de probabldade Bnomal possam ser modelados usando a dstrbução orgnal dos dados. Outra forma de relaconar a varável dependente e demas ndependentes, num processo de nvestgação e modelagem de dados, fo proposta por Ferrar e Crbar-Neto (2004), cuja estrutura de regressão basea-se na suposção de que os dados mensurados em proporção seguem a dstrbução de probabldade Beta. Este procedmento é chamado de Modelo de Regressão Beta. 1.1 TEMA O tema desta dssertação contempla modelos de regressão utlzados na modelagem de dados mensurados em proporção, ou seja, varável dependente contínua restrta no ntervalo [0,1], mas especfcamente o Modelo de Regressão Beta (MRB) e o Modelo de Quase-verossmlhança (MQV), que é pertencente à classe dos Modelos Lneares Generalzados (MLG).

14 1.2 OBJETIVOS 1.2.1 Objetvo Geral O objetvo do trabalho consste em elaborar um método que orente à modelagem de dados mensurados em proporção, levando em consderação a classfcação das varáves dependente e ndependentes, com enfoque no Modelo de Regressão Beta e no Modelo de Quase-verossmlhança. 1.2.2 Objetvos Específcos Pretende-se adconalmente alcançar os seguntes objetvos específcos: Aplcar o método de orentação ao processo de produção de uma empresa curtdora de couro. Avalar o ajuste e a adequabldade dos modelos de regressão, baseando-se nas técncas de dagnóstco. Comparar o Modelo de Regressão Beta e o Modelo de Quase-verossmlhança, dentfcando vantagens e desvantagens desses modelos. 1.3 JUSTIFICATIVA DO TEMA E OBJETIVO A modelagem de um conjunto de nformações é parte de um processo centífco e uma manera de aprender a respeto do comportamento de processos é nvestgar a nfluênca de possíves efetos. Com sso, a abordagem de modelos de regressão vem despertando crescente nteresse no meo ndustral. Os modelos mas conhecdos são usados com varáves dependentes contínuas, sem que estas apresentem restrções nos valores mensurados. O uso de ferramentas estatístcas, como modelos de regressão, auxla no controle e na melhora da qualdade dos processos de manufatura (PARK, 1996), permtndo nvestgar possíves efetos na produção de produtos não conformes às especfcações.

15 Uma observação mportante sobre os modelos de regressão é que os dados apresentem valdade sob certas suposções, como, por exemplo, um tamanho de amostra consderavelmente grande. No entanto, em vrtude do tpo de processo que se tem nteresse em nvestgar, como um processo destrutvo ou um processo complexo de coleta de dados, o tamanho de amostra obtdo é pequeno e, conseqüentemente, as estmatvas dos parâmetros e capacdade de prevsão podem sofrer dstorções. Segundo Keschnck e McCullogh (2003), um modelo de regressão lnear normal utlzado na nvestgação de valores em proporção ou fração como varável dependente é um modelo falho, pos não satsfaz as pressuposções necessáras ao uso, produzndo: () não normaldade do termo de erro; () heterocedastcdade, ou seja, não homogenedade de varânca dos valores e () possbldade de a probabldade estmada (proporção predta) estar fora do lmte do ntervalo [0,1]. A partr dessas constatações, necessta-se de um modelo de regressão que possua flexbldade de adaptação para a dstrbução de probabldade da varável dependente. Este trabalho apresenta dos modelos de regressão que contemplam a adaptação aos dados em proporção. O prmero é o Modelo de Quase-verossmlhança, pertencente à classe dos Modelos Lneares Generalzados. Segundo McCullagh e Nelder (1989), os Modelos Lneares Generalzados apresentam um leque de opções para a dstrbução da varável dependente, permtndo a escolha de uma dstrbução de probabldade para o ajuste adequado do modelo aos dados. Assm, dados provenentes de uma dstrbução de probabldade Bnomal ou de Posson podem ser modelados usando a dstrbução orgnal dos dados. Por consegunte, não há necessdade de pressuposção de normaldade aos dados (CORDEIRO, 1986; DOBSON, 1990 e MYERS et al., 2002). O segundo é o Modelo de Regressão Beta, que apresenta característcas mportantes na modelagem de dados, a saber: () dstrbução de probabldade que melhor se ajusta aos dados em proporção; () não normaldade do termo de erro; () varabldade dos dados não constante; (v) probabldade estmada (proporção predta) contda no ntervalo [0,1] e (v) modelagem adequada dos dados em proporção para tamanho de amostra pequeno (TORRES, 2005), que se fazem de fundamental mportânca. Segundo Martínez (2004), esse modelo

16 permte gerar estmatvas precsas e seguras dos parâmetros, sem necessdade de volar pressuposções para uso. Os modelos de regressão Beta e de Quase-verossmlhança são ndcados para resolver problemas de modelagem de dados quando mensurados em proporção. Além de serem menos conhecdos, suas descrções na lteratura não é ampla: mesmo em artgos que, por vezes, apresentam os modelos, não são detalhados aspectos mportantes da análse, tas como propredades dos modelos, estatístcas e gráfcos ndcados para verfcar a sua adequação. O desenvolvmento de um método que orente à modelagem de dados mensurados em proporção, conforme certas característcas relevantes, é mportante, pos o método permte que nos expermentos realzados e que serão analsados, sejam escolhdos adequadamente quas modelos podem ser utlzados. Conforme Har et al. (1998), para o uso da abordagem estatístca em expermentos e análse de um processo, é necessáro prevamente possur uma déa do que será estudado, de como os dados serão coletados, da natureza dos dados (dscretos ou contínuos) e um entendmento qualtatvo de como serão analsados. No estudo de aplcação deste trabalho, o processo de classfcação de couro é um fator crítco na empresa curtdora, uma vez que a subjetvdade na classfcação das especfcações gera condções para uma maor varabldade nos seus crtéros, o que conduzem a refugos por erros de classfcação no produto fnal. Os produtos rejetados (refugados), gerados por defetos no processo de manufatura, consttuem o prncpal problema qualtatvo das empresas no meo ndustral. Segundo Helfer (1991), empresas do ramo de curtmento de couro vêem este problema agravado pela crescente complexdade dos produtos e pelas exgêncas dos clentes. Desta forma, começam a ser colocadas exgêncas que apontam a um maor e melhor controle dos processos. Arrba (2005) relata que os defetos devdos a uma escolha errada da matéra-prma, se traduzem para o processo como refugos. Os produtos produzdos, a partr destes refugos, são venddos por um preço mutas vezes até 50% menor que o produto produzdo pela matéra-prma orgnal. Assm, quanto mas precsa for a classfcação ncal da matéraprma, menor o rsco de ter refugos por erros de classfcação.

17 1.4 MÉTODO Uma vez defndos os objetvos deste trabalho, torna-se necessáro estabelecer o método pelo qual estes objetvos serão buscados. 1.4.1 Método de Pesqusa Segundo Jung (2004), toda pesqusa que utlzar métodos centífcos é dta centífca, não mportando se o propósto é de ordem teórca ou aplcada. De acordo com Slva e Menezes (2001), é mportante caracterzar e classfcar uma pesqusa centífca, de forma a delnear as etapas para a sua realzação. As formas clásscas de classfcação são: do ponto de vsta da sua natureza (aplcada e básca), da forma de abordagem do problema (quanttatva e qualtatva), de seus objetvos (descrtva, explcatva e exploratóra) e dos procedmentos técncos a serem adotados (bblográfca, documental, estudo de caso, expermental, expostfacto, levantamento, partcpante e pesqusa-ação) conforme Fgura 1. NATUREZA ABORDAGEM DO PROBLEMA OBJETIVOS PROCEDIMENTOS TÉCNICOS BIBLIOGRÁFICA DESCRITIVA DOCUMENTAL APLICADA QUALITATIVA ESTUDO DE CASO EXPLICATIVA EXPERIMENTAL BÁSICA QUANTITATIVA EXPOST-FACTO EXPLORATÓRIA LEVANTAMENTO PARTICIPANTE PESQUISA-AÇÃO Fgura 1 Classfcações das pesqusas segundo Slva e Menezes (2001) A partr da classfcação apresentada por Slva e Menezes (2001), este trabalho se caracterza como: () uma pesqusa aplcada, uma vez que objetva gerar conhecmentos para aplcação prátca drgdos à solução de problemas específcos, envolvendo verdades e

18 nteresses locas. A pesqusa aplcada é dfundda no tempo e no espaço, mas é lmtada no contexto da aplcação, pos admte-se que os problemas podem ser entenddos e resolvdos apenas com o conhecmento; () uma pesqusa quanttatva, pos requer o uso de técncas estatístcas na análse de nformações obtdas; () uma pesqusa explcatva por possur um objetvo explcatvo, vsando a dentfcar característcas da relação entre varáves em estudo, contrbundo para explcar a razão de ocorrênca do fenômeno. (v) uma pesqusa bblográfca, elaborada a partr de materal já publcado, consttuído de lvros, artgos de peródcos, artgos em anas de congressos e materas dsponblzados na nternet e pesqusa expermental, por haver o nteresse em observar a nfluênca dos efetos das varáves no objeto de estudo. 1.4.2 Método de Trabalho O método de trabalho seguu as etapas apresentadas na Fgura 2. Na seqüênca são detalhadas cada uma das etapas. REFERENCIAL TEÓRICO SÍNTESE E CLASSIFICAÇÃO DOS MODELOS ELABORAÇÃO DO MÉTODO M DE ORIENTAÇÃO APLICAÇÃO DO MÉTODO M EM ESTUDO REAL UTILIZAÇÃO DO PACOTE ESTATÍSTICO STICO ANÁLISE DO AJUSTE DOS MODELOS ANÁLISE DE ADEQÜABILIDADE ABILIDADE DOS MODELOS COMPARAÇÃO DOS MODELOS AJUSTADOS CONCLUSÃO E SUGESTÕES Fgura 2 Etapas de execução do método de trabalho

19 A presente pesqusa ncou com uma revsão de lteratura abordando os temas: () Gráfco de Representação de Sstemas, () Modelos de Regressão e () Meddas de Dagnóstco para a verfcação da adequação dos modelos, com o objetvo de consoldar nformações e concetos relevantes e necessáros ao desenvolvmento deste trabalho. Na seqüênca, realzou-se uma síntese e classfcação dos modelos de regressão quanto à natureza das varáves dependente e ndependentes. É mportante salentar que não é aconselhável tratar as dferentes classfcações de medção com os mesmos modelos de regressão. Portanto, é essencal observar quas são os tpos possíves de varáves dependentes e ndependentes exstentes no conjunto de dados em estudo, pos a dentfcação e classfcação destas varáves nos levam a consderar classes de modelos de regressão dferentes. Posterormente, elaborou-se um método de orentação à modelagem de dados meddos em proporção, consderando a classfcação da natureza das varáves dependente e ndependentes, em partcular os que modelam uma únca varável dependente (modelagem unvarada). O desenvolvmento do método fo baseado na lteratura, na classfcação préva dos modelos de regressão e na experênca empírca do autor. Aplcou-se o método na empresa Bracol Couros, que é aflada ao Grupo Bertn Ltda, produtora de couro acabado e fornecedora para as ndústras calçadsta e de artefatos de couro da regão do Vale do Ro dos Snos. Para a empresa, um dos prncpas nteresses é conhecer quas são os fatores de maor nfluênca na produção de refugo por erros de classfcação no produto acabado causados por erros de classfcação no estágo wet blue, e assm poder dentfcar os efetos dos fatores com o ntuto de defnr procedmentos para reduzr a ação das fontes de varabldade. Na análse estatístca de modelos de regressão mas sofstcados ou mas recentemente desenvolvdos, freqüentemente se encontra um obstáculo no que dz respeto aos recursos computaconas dsponíves. Os pacotes estatístcos mas comumente usados na construção dos modelos de regressão são STATGRAPHICS, SPSS e MINITAB. No entanto, esses pacotes não apresentam procedmentos para construr os modelos propostos neste trabalho: o Modelo de Quase-verossmlhança e o Modelo Beta.

20 A construção dos modelos de regressão propostos fo realzada no software R 2.0.1, um programa estatístco freeware desenvolvdo em lnguagem C++, bastante smples de utlzar e que permtu adconar rotnas de programação na syntax do modelo, pos possu códgo aberto. Dentre outras análses, este programa pode ser utlzado para o ajuste de qualquer modelo de regressão com enfoques lneares e não-lneares. Mas detalhes podem ser vstos em R Development Core Team (2004). Com os dados coletados pela empresa quando da verfcação dos crtéros de classfcação da matéra-prma no estágo wet blue, a mensuração dos resultados obtdos na verfcação fo defnda como a varável dependente no estudo. Em seguda, fo feto o uso do método proposto na orentação da modelagem dos dados, possbltando dentfcar quas os fatores controláves (parâmetros do processo) e os graus de nfluênca destes na proporção de produtos refugados por erros de classfcação quando do ajuste dos modelos de regressão. Na seqüênca da modelagem dos dados, realzou-se a análse das meddas de dagnóstco para verfcação da adequabldade dos modelos ajustados, fornecendo nformações relevantes na escolha dos modelos de regressão. As meddas de dagnóstco forneceram evdêncas quanto ao desempenho dos modelos ajustados e permtu a realzação da comparação dos modelos utlzados, dentfcando posterormente vantagens e desvantagens no uso. Por últmo, conclusões e sugestões para trabalhos futuros foram elaboradas. 1.5 ESTRUTURA DO TRABALHO A dssertação é composta de cnco capítulos. Neste prmero capítulo, tem-se a vsão geral, dos objetvos a serem alcançados, dos métodos e das delmtações do trabalho. No segundo capítulo é apresentada uma revsão sobre Gráfco de Representação de Sstemas, Modelo de Quase-verossmlhança (a partr da teora dos Modelos Lneares Generalzados) e Modelo de Regressão Beta. Ademas são apresentados aspectos báscos das meddas de dagnóstco usualmente empregadas para: () avalar a qualdade do ajuste; () avalar a adequabldade dos modelos aos dados; () dentfcar observações nfluentes e (v) capacdade de predção dos modelos em estudo.

21 No tercero capítulo é apresentado um método de orentação à modelagem de dados mensurados em proporção, consderando a classfcação da varável dependente e das varáves ndependentes. O método apresenta um enfoque na varável dependente quanttatva contínua com restrção ao ntervalo [0,1]. No quarto capítulo é dscutda a aplcação do método proposto em um estudo de caso realzado numa empresa curtdora de couro, stuada na regão do Vale do Ro dos Snos, em uma etapa do processo de produção, denomnada de estágo wet blue. Fo realzada uma análse comparatva em que foram dscutdas as vantagens e desvantagens do uso dos modelos de regressão sugerdos nesta dssertação. No qunto capítulo são apresentadas as consderações fnas obtdas com o desenvolvmento da dssertação e sugestões para trabalhos futuros. 1.6 DELIMITAÇÕES A dssertação delmta-se no estudo dos modelos de regressão para varáves dependentes contínuas com mensurações em proporção, apresentando o ajuste e a adequabldade aos dados - os modelos de regressão Beta e de Quase-verossmlhança. O modelo de regressão Beta não é aplcável a varável dependente quanttatva contínua que não apresente valores de mensuração compreenddos no ntervalo entre zero e um (0,1). Entretanto, não há nenhuma restrção de aplcação do modelo quanto às varáves ndependentes, podendo ser de natureza quanttatva e/ou qualtatva. Os modelos de regressão apresentados no método de orentação, bem como os modelos utlzados na modelagem se restrngem a uma varável dependente, não havendo restrções ao número de varáves ndependentes a serem usadas. O método elaborado delmta-se na orentação à modelagem de varáves dependentes contínuas com mensurações em proporção.

22 2 REFERENCIAL TEÓRICO Este capítulo apresenta uma revsão de lteratura sobre Gráfco de Representação de Sstemas, Modelos Lneares Generalzados (MLG), que foram propostos por Nelder e Wedderburn (1972), mas especfcamente o Modelo de Quase-verossmlhança; Modelo de Regressão Beta (MRB); e Meddas de Dagnóstco. Abordando também dstrbuções de probabldade, forma estrutural dos modelos, método de estmação e teste de sgnfcânca. Além de uma síntese dos modelos contemplados no método proposto no Capítulo 3. 2.1 GRÁFICO DE REPRESENTAÇÃO DE SISTEMAS Uma mportante ferramenta gerencal para compreender os processos exstentes ou propostos é o seu mapeamento, uma representação de forma gráfca que permta vsualzar as atvdades nas dversas etapas da organzação, dentfcando oportundades de clareza e smplfcação (ARAÚJO, 2001). A elaboração de métodos gráfcos consttu a ferramenta para a compreensão dos procedmentos gerencas do processo. Em que permte orentar com maor clareza e objetvdade o fluxo de nformação e sua operaconalzação, possbltando melhor resultado na análse das nformações. Segundo Olvera (1999), um método gráfco desenvolvdo para descrever o fluxo de processos e/ou procedmentos, permte ao analsta o dscernmento na orentação adequada quanto ao processo ou procedmento a ser utlzado. Para Araújo (2001), um método gráfco que descreve um processo exstente ou proposto, usando smbologa smples, de manera clara e objetva, se consttu uma mportante ferramenta na gestão organzaconal. Harrngton (1993) relata que, um método gráfco vale mas que ml procedmentos, salentando a mportânca da ferramenta. Em suma, os métodos gráfcos têm uma função básca: descrever um processo para que se possa evdencar a orentação dos procedmentos, reduzr o tempo de execução das atvdades e dentfcar as oportundades de mudanças. Quer dzer, o essencal não é a documentação e sm a análse do processo, cujo fm é defnr e mplementar melhoras.

23 2.2 MODELO LINEAR GENERALIZADO 2.2.1 Introdução Em mutas stuações prátcas em que se deseja realzar uma nvestgação entre uma varável dependente e demas varáves ndependentes, cuja varável dependente apresenta restrção nos valores mensurados como proporção de algum evento de nteresse, é comum usar no processo de modelagem, o modelo de regressão lnear normal. Contudo, segundo Cox (1996), a modelagem da proporção utlzando um modelo de regressão lnear normal nem sempre é recomendada, pos este modelo requer a suposção de normaldade aos dados. Pelo fato dos dados serem mensurados em proporção dfclmente apresentarão normaldade. Portanto, deve-se buscar uma nova forma de relaconar as varáves ndependentes à varável dependente. Uma classe de modelos conhecdos como Modelos Lneares Generalzados é aproprada para nvestgar o efeto de varáves ndependentes sobre uma únca varável dependente de comportamento não-normal. Estes modelos permtem estmar os parâmetros relaconados com cada efeto, analsar a nfluênca e realzar prevsões. Ademas, na construção destes modelos as varáves ndependentes podem ser de natureza quanttatva ou qualtatva. Segundo Hamada e Nelder (1997), a classe de Modelos Lneares Generalzados fo desenvolvda por Nelder e Wedderburn (1972) e estes modelos se baseam em dstrbuções de probabldade pertencentes à famíla exponencal, com um parâmetro desconhecdos, cujas médas são não-lneares num conjunto de parâmetros lneares. Conforme Lee e Nelder (1998), está classe de modelos é defnda anda por um conjunto de varáves ndependentes que descreve a estrutura lnear do modelo e uma função de lgação entre a méda da varável dependente e a estrutura lnear. O número de produtos não conformes (m ) em uma amostra (n ) ndependente, onde m < n, é classfcado como uma varável aleatóra dscreta (y ), pos esta varável pode ser representada por um valor de grandeza no conjunto dos números reas (AGRESTI, 1996). Segundo Fahrmer e Tutz (1994) e Paula (2004), esta varável aleatóra segue a dstrbução de probabldade Bnomal com os parâmetros n e p, sendo p = m /n.

24 Segundo Cordero (1986), o estudo de dados na forma de proporção é descrto formalmente como um Modelo Bnomal, pos apresenta a probabldade de sucessos de um referdo evento ocorrer, em um conjunto de n dados nvestgados. McCullagh e Nelder (1989) salentam que, neste tpo de estudo, a relação entre a varável dependente e as varáves ndependentes em estudo é descrta por uma função. Conforme Crowder (1978, p.34); Prentce (1986, p.323) e Demétros (2002, p.15), a proporção de sucessos (p ) de um referdo evento (por exemplo, produto defetuoso) segue uma dstrbução de probabldade Beta-Bnomal. Onde admt-se que a varável dependente (y ) segue a dstrbução Bnomal e a proporção (p ) em cada ocorrênca ( = 0,..., n) segue uma dstrbução de probabldade Beta. A combnação das dstrbuções de probabldade Bnomal e Beta na estrutura da modelagem produzem apenas um ajuste na função de varânca da varável dependente. 2.2.2 Famíla Exponencal Em lnhas geras, supondo uma varável aleatóra y cuja função densdade de probabldade depende do parâmetro θ. A dstrbução de probabldade pertence à famíla exponencal se pode ser escrta na forma: [ a( y) b( θ ) + c( ) d( y) ] f ( y; θ ) = exp θ + (1) onde b(θ) é defndo como parâmetro da dstrbução de probabldade e a(y) é chamada de forma canônca. Desta forma, mutas dstrbuções de probabldade pertencem à famíla exponencal, como por exemplo, a dstrbução Normal, Bnomal e Posson, pos podem ser escrta na forma canônca e apresentar um parâmetro θ, conforme Tabela 1.

25 Tabela 1 Característcas das prncpas dstrbuções de probabldade da famíla exponencal. Dstrbução de Parâmetro Forma canônca c(θ) d(y) Probabldade (θ) a(y) Normal µ y 2 2 µ log( 2πσ ) 2σ 2 2 2 y 2 2σ Bnomal µ log 1 µ y n log( 1 µ ) n log y Posson log µ y µ log y! Adaptado de DOBSON (1990) e PAULA (2004). Uma vez que a varável aleatóra y segue alguma dstrbução de probabldade, mplctamente são defndas para esta varável: a esperança matemátca (méda), a varânca, a função de varânca, dentre outros parâmetros (ver Tabela 2). Tabela 2 Méda e Varânca das prncpas dstrbuções de probabldade da famíla exponencal Dstrbução de Probabldade Esperança (méda) (E(y)) Varânca (Var(y)) Normal µ σ 2 Normal Inversa µ µ 3 σ 2 Bnomal µ µ(1 µ) Bnomal Negatva µ µ +µ 2 /α Posson µ µ Gamma µ µ 2 / α Contudo, observa-se que uma varânca de uma varável aleatóra y é um produto de dos componentes, e apresenta a forma da equação (2)

26 Var(y) = φ V(µ) (2) onde φ é o parâmetro de dspersão, que é a parte da varânca que não depende da méda e é constante para as dstrbuções pertencentes a famíla exponencal, e V(µ) é a função de varânca, que depende da méda. Na Tabela 3 tem-se a forma de algumas dstrbuções membros da famíla exponencal. Tabela 3 Forma dos componentes da Varânca das prncpas dstrbuções da famíla exponencal Dstrbução de Probabldade Parâmetro Dspersão (φ) Função de Varânca V(µ) Normal σ 2 1 Normal Inversa σ 2 µ 3 Bnomal 1 µ(1 µ) Bnomal Negatva 1 µ +µ 2 /α Posson 1 µ Gamma 1/α µ 2 2.2.3 Componentes do Modelo A formulação de um MLG compreende-se por possur três componentes: a componente aleatóra, que dentfca a dstrbução de probabldade da varável dependente; a componente sstemátca, que especfca a estrutura lnear das varáves ndependentes quanttatvas e/ou qualtatvas, que é utlzada como predtor lnear; e a função de lgação, que descreve a relação funconal entre a componente sstemátca e o valor esperado da componente aleatóra (CORDEIRO, 1986; McCULLAGH ; NELDER, 1989; DOBSON, 1990; FAHRMEIR ; TUTZ, 1994; PAULA, 2004).

27 2.2.3.1 Componente Aleatóra A componente aleatóra especfca uma varável aleatóra y com n observações ndependentes e dentcamente dstrbuídas, um vetor de médas µ = (µ 1,..., µ n ) T e uma dstrbução pertencente à famíla exponencal (McCULLAGH ; NELDER, 1989; DOBSON, 1990). Conforme Agrest (1996), em mutas aplcações, os resultados potencas para cada observação de y são bnáros, como sucesso ou fracasso, ou mas geralmente, cada y podera ser defndo como o número de sucessos de um certo número fxo de tentatvas. Desta forma, assummos uma dstrbução bnomal para a componente aleatóra. Para Montgomery e Peck (1992) em alguma outra aplcação, se cada observação y é contínua, como o peso de um lote de peças em um estudo no processo de manufatura, pode-se assumr uma componente aleatóra normal. 2.2.3.2 Componente Sstemátca A componente sstemátca especfca a estrutura lnear das varáves ndependentes quanttatvas e/ou qualtatvas, que é utlzada como predtor lnear (McCULLAGH ; NELDER, 1989). Para Agrest (1996) a componente especfca as varáves ndependentes que entram lnearmente à dreta da equação do modelo como predtores, conforme a equação (3) y = α + β 1 x 1 +... + β k x k (3) Assm, a combnação lnear das varáves ndependentes é chamada de predtor lnear. Segundo Paula (2004), algumas varáves ndependentes (x j ) podem ser baseadas em outro formato que permta avalar o efeto em y, por exemplo, seja x 3 = x 1 x 2, que permte nteração entre x 1 e x 2 ou x 3 = x 2 1, que permte um efeto quadrátco de x 1. De acordo com Cordero (1986), a estrutura lnear de um MLG pode ser escrta como, a equação (4)

28 k η = β (4) x j j= 1 j onde a função lnear η dos parâmetros desconhecdos β = (β 1,..., β k ) é denomnada de predtor lnear, x j representa os valores de k (k < n) varáves ndependentes que são assumdas fxas e conhecdas. 2.2.3.3 Função de Lgação A tercera componente do um MLG é a função de lgação, que descreve a relação funconal entre a componente sstemátca e o valor esperado da componente aleatóra (a méda da varável dependente). A estrutura da função de lgação na equação do modelo pode ser representada conforme a fórmula (5) g(µ ) = α + β 1 x 1 +... + β k x k (5) podendo ser reescrto como g(µ ) = η (6) em que a função g(µ ) segundo mutos autores, é uma função estrtamente monótona e duplamente dferencável e que possblte modelar dretamente a méda da varável dependente, conforme pode ser lustrado, µ = g 1 (η ) ; = 1,..., n (7) Esta dssertação aborda as prncpas funções de lgação g( ) que são utlzadas na modelagem dos Modelos Lneares Generalzados, quando a dstrbução de probabldade da varável dependente é Bnomal, sendo: - a função Probt: g(µ) = Φ 1 (µ), onde Φ(µ) é a função de dstrbução normal acumulada e Φ 1 (µ) é a função nversa, monótona e dferencável, - a função Logt: g(µ) = log(µ/(1 µ)) - a função Complemento Log-log: g(µ) = log{ log(1 µ)}

29 Estas funções são defndas conforme a dstrbução de probabldade da varável dependente, sendo estas funções de lgação contínuas e estrtamente crescentes no ntervalo untáro [0,1]. Em mutos casos, pode ser vável utlzar a função de lgação que melhor ajuste a relação da estrutura lnear (predtor lnear) e a méda da dstrbução da varável dependente (CORDEIRO, 1986; McCULLAGH ; NELDER, 1989; DOBSON, 1990 e PAULA, 2004). Segundo Sant Anna e Caten (2005), dentre as funções de lgação usadas na modelagem de dados que seguem a dstrbução de probabldade Bnomal, a função de lgação Logt apresenta melhor ajuste, além de permtr facldade de nterpretação. 2.2.4 Método de Estmação Esta seção apresenta a estmação dos parâmetros para o Modelo Lnear Generalzado através do método clássco de máxma verossmlhança, em que os estmadores β e φ são obtdos a partr da maxmzação do logartmo da função de verossmlhança, utlzando um algortmo de otmzação não-lnear, tal como o algortmo de Newton (Newton-Rapson, Fsher s scorng, etc.) descrto em detalhes por Cordero (1992) ou o algortmo quas-newton (BFGS) descrto por Ferrar e Crbar-Neto (2004). Conforme Cordero e Crbar-Neto (1998), este método de estmação pode ser utlzado consderando qualquer dstrbução de probabldade para varável dependente. O método de estmação por máxma verossmlhança dos parâmetros dos modelos de regressão pertencentes à classe dos MLG s, consdera a função de log-verossmlhança baseada na amostra de n observações ndependentes, de forma geral, n l = 1 (, φ) = ( µ, φ) l β, (8) com µ defnda de tal forma que satsfaz a equação µ = g 1 (η ), que é função de β. A função escore é obtda pela dferencação da função de log-verossmlhança em relação aos parâmetros desconhecdos. A sto se segue que, para j = 1,..., k, a dervada da função de log-verossmlhança apresenta a forma

30 Note que µ / η = 1/ '( ) g µ n ( β, φ) l ( µ, φ) l β e também, j = = 1 µ η µ η. (9) β j l ( µ, φ) µ y = φ log 1 y { δ ( µ φ) δ ( 1 µ ) φ}, (10) onde δ( ) é uma função dgamma, sto é, ( z) = logγ( z) / z δ, z > 0. Desta forma y * = log (y / (1 y )) e µ * = {δ( µ φ) δ(1 µ )φ }. Conforme Martínez (2004) o valor esperado da dervada em (10) guala-se a zero, de forma que o valor esperado da varável aleatóra transformada y * guala-se a µ *. Ou seja, µ * = E(y * ), por consegunte, n ( β, φ) * * = φ ( y µ ) l β j = 1 1 g' ( µ ) x j. (11) A função escore para β pode ser defnda de forma matrcal como: U β (β, φ) = X T T(y * µ * ), (12) onde X é uma matrz (n x k) cuja t-ésma lnha é x T t, T = dag{1/g (µ 1 ),..., 1/g (µ n )}, y * = (y * 1,..., y * n ) T e µ * = (µ * 1,..., µ * n ) T. De forma semelhante, tem-se que para o parâmetro de dspersão (φ) a dervada do logartmo da função de verossmlhança e dado por n ( β, φ) ( µ, φ) l φ = l = 1 φ. (13) e a função escore pode ser escrta como n * ( β, φ) = { µ ( y µ ) + log( 1 y ) δ (( 1 µ ) φ) + δ ( φ) } Uφ. (14) = 1 sendo U φ (β, φ) um escalar. O próxmo passo é obter a matrz de nformação de Fsher para (β, φ) fazendo as dervadas de 2ª ordem da equação (8) em relação a β e φ. A partr dsto, obteremos W = dag{w 1,..., w n }, com

31 w { δ ( µ φ) + δ (( 1 µ ) φ) } 1 = φ, { δ ( µ )} 2 c = (c 1,..., c n ), com c = φ{ δ ( µ φ) µ + δ (( µ ) φ)( 1 µ )} 1, onde δ (. ) é a função trgamma. 2 Admte-se que D = dag{d 1,..., d n }, com = ( µ φ) µ + δ ( µ ) Pode-se provar que a matrz de nformação de Fsher é dada por 2 ( φ)( 1 µ ) δ ( φ) d δ. ββ βφ ( β φ) = Kφβ Kφφ 1 K K K = K,, (15) onde K ββ = φx T WX, K βφ = K T φβ = X T Tc e K φφ = tr(d) (FAHRMEIR e TUTZ, 1994). Observe que K βφ = K T φβ 0, o que ndca que os parâmetros β e φ não são ortogonas, dferentemente do que é verfcado na classe dos modelos lneares generalzados (MYERS et al., 2002). Sob condções de regulardade usuas para estmação de máxma verossmlhança (ver SEN e SINGER, 1993), quando o tamanho da amostra é grande, tem-se que ˆ β ˆ φ β K φ N k + 1, 1, (16) onde βˆ e φˆ são estmadores de máxma verossmlhança de β e φ, respectvamente, e N k+1 uma dstrbução normal (k+1)-varada. Por esta razão é útl obter uma expressão para K 1, a qual pode ser usada para obtenção dos erros padrões assntótcos das estmatvas de máxma verossmlhança. Utlzando a expressão padrão para a nversa de matrzes partconadas (ver, por exemplo, MARTÍNEZ, 2004), obtem-se a nversa da matrz de nformação de Fsher (15) como segue onde K ββ 1 1 K = K, K K ββ βφ ( β φ) = Kφβ Kφφ T ( X ) T T T 1 T 1 X TccT X WX = ( X WX ) I k + φ γφ, (17) 1, (18)

32 com γ = tr(d) φ 1 c T X(X T WX) 1 X T Tc, K βφ = (K φβ T ) = 1/γφ (X(X T WX) 1 X T Tc), e K φφ = γ 1. Sendo I k a matrz dentdade de ordem k x k. 2.2.4.1 Algortmo de Newton-Raphson Entre os métodos mas poderosos para soluconar sstemas de equações não-lneares, está o algortmo de Newton-Raphson, o qual é o mas utlzado, embora apresente algumas desvantagens, como o cálculo da matrz U(θ (k) ), bem como sua nversa, que em algumas stuações é de dfícl obtenção, posto que a matrz U (θ) pode não ser postva defnda. Seja θ = (β T,φ T ), o vetor de parâmetro e U(θ) = (U β (β, φ) T, U φ (β, φ)) T, o vetor das funções escore de dmensão (k+1) x 1. O processo teratvo de Newton-Raphson para a obtenção da estmatva da máxma verossmlhança do vetor θ é defndo expandndo-se em sére de Taylor até prmera ordem, a função escore U(θ) em torno de uma valor ncal θ (0), tal que U(θ) U(θ (0) ) + U (θ (0) ).(θ θ (0) ), (19) em que U (θ (0) ) denota a dervada de prmera ordem de U(θ) com respeto a θ T. Fazendo U(θ) = 0, então θ (k) θ = { U (θ)} 1 U(θ), (20) logo, repetndo o procedmento acma, chega-se ao processo teratvo θ (k+1) = θ (k) + { U (θ (k) )} 1 U(θ (k) ), k = 0,1,2,... (21) Assm, o processo anteror é repetdo até que a dstânca entre θ (k+1) = θ (k) seja menor que uma tolerânca especfcada (NOCEDAL e WRIGHT,1999). Keschnck e McCullough (2003) utlzaram o método de máxma verossmlhança, através do algortmo de Newton-Raphson, na estmação dos parâmetros de quatro modelos de regressão construídos (modelo lnear censurado normal, logístco beta, logístco smplex e quase-verossmlhança) e o método de mínmos quadrados em três modelos (modelo lnear normal, logístco transformado e logístco lnear) realzando posterormente uma comparação analítca entre os valores estmados pelos métodos e constatou que o método de máxma verossmlhança é melhor, pos apresenta maor consstênca e precsão.

33 2.2.5 Teste de Sgnfcânca dos Parâmetros Nesta seção será apresentado o teste de sgnfcânca das estmatvas dos parâmetros do modelo de regressão. Ou seja, o teste de hpótese para os parâmetros desconhecdos (β s) dos modelos de regressão. Para a prevsão de futuras observações da varável y deve-se usar modelos contendo apenas parâmetros sgnfcatvos (modelos parcmonosos), obtdos a partr da execução de testes que determnem a sgnfcânca de cada parâmetro. Para testar hpóteses que ldam com modelos de regressão não lnear, pode-se utlzar o teste da Razão de Verossmlhança e o teste de Wald. Ambos tendem à dstrbução de probabldade qu-quadrado com graus de lberdade dependendo dos níves de cada varável. Segundo Agrest (1996), o teste da Razão de Verossmlhança é mas confável para qualquer tamanho de amostra do que o teste de Wald. Por sto será abordado apenas o Teste da Razão de Verossmlhança. É possível realzar testes assntótcos para fazer nferênca sob o vetor dos parâmetros desconhecdos. Este teste verfca se há relação lnear entre y, as varáves ndependentes x 1, x 2,..., x k, e β j = (β 1,..., β k ) T onde = 1,..., n. Consdere o teste de hpótese H 0 : β j = β (0) j versus H 1 : β j β (0) j Para o teste da razão de verossmlhança, a estatístca de teste é dada por ~ ~ { l( ˆ, β ˆ φ ) ( β, φ )} ϖ = 2 l (22) T em que l(β,φ) é logartmo natural da função de máxma verossmlhança e ( ) T l ˆ β, ˆ φ estmador de máxma verossmlhança restrto de l(β T,φ) T obtdo pela mposção hpótese nula. Sob condções geras de regulardade e sob H 0, ϖ χ 2 k. Ou seja, sob a hpótese nula, ϖ tende a dstrbução qu-quadrado com k graus de lberdade. é o 2.2.6 Modelo de Quase-verossmlhança De um modo geral, para alguns modelos de regressão realzar a modelagem de um conjunto de observações, prmero deve-se assumr que os dados seguem uma dstrbução de probabldade conhecda e que esta pertença à famíla exponencal, em alguns casos não é

34 adequado escolher uma dstrbução de probabldade a pror para os dados, pos os dados podem não segur tas dstrbuções de probabldade. Nestes casos, Weddeburn (1974) propôs os modelos de quase-verossmlhança (MQV s) pertencentes à classe dos MLG s, pos estes modelos apresentam uma componente sstemátca (estrutura lnear das varáves ndependentes) e função de lgação que relacona a méda (µ ) da varável dependente à estrutura lnear das varáves ndependentes (x j ). A característca destes modelos de regressão, é que não há a necessdade de assumr a prncípo alguma dstrbução de probabldade para a varável dependente. Por consegunte, a esperança matemátca e a varânca da varável aleatóra não são conhecdas a pror. Seja y uma varável aleatóra qualquer de nteresse, que assume a E[y ] = µ e uma varânca defnda por Var[y ] = φ*v(µ ), onde a função de varânca V(µ ) é uma função conhecda da méda µ e φ é o parâmetro de dspersão constante. A função de quaseverossmlhança para um modelo de regressão é defnda pela equação Q ( y ; µ ) y t = µ y φ V ( t) dt, (23) Segundo Cox (1996), quando se modela um conjunto de dados usando os MQV s, a varânca é modelada como uma função da méda da varável dependente, multplcada anda por um parâmetro de dspersão constante. Desta forma, a dstrbução da varável dependente fcará determnada quando a função de varânca escolhda concdr com a função de varânca de alguma dstrbução de probabldade pertencente à famíla exponencal. O Modelo de Quase-verossmlhança utlzado na modelagem de um conjunto de dados mensurados em proporção é descrto a partr de uma varável aleatóra (y ) que assume a esperança matemátca e a varânca da forma E[y ] = µ e Var[y ] = φ*v(µ ), respectvamente. Onde a função de varânca é defnda por V(µ ) = µ(1 µ). Assm, a função para a varável aleatóra acma descrta, apresenta a forma da equação (24) Q 1 y µ µ ( y ; µ ) = dµ φ (24) y µ ( 1 µ )

35 e o logartmo da função de quase-verossmlhança fca nesse caso dado por µ Q µ µ 1 ( y ; µ ) = y ln + ln( 1 ) (25) que conforme McCullagh e Nelder (1989), a função acma corresponde: a função de varânca V(µ) =µ(1 µ) e a função de log-verossmlhança da dstrbução de probabldade Bnomal é dada por µ L µ µ 1 ( y ; µ ) = y ln + n ln( 1 ) (26) Nota-se portanto que a prncpal dferença entre como formam-se as equações (25) e (26) está em que, quando se usa a função de quase-verossmlhança para estmar os coefcentes (parâmetros desconhecdos) do modelo de regressão, apenas se defne a relação da varânca da varável dependente com a sua méda, não sendo necessáro defnr anterormente uma dstrbução de probabldade. De acordo com Cox (1996), uma vantagem da flexbldade de uso dos MQV s na modelagem de uma varável dependente de conjunto de dados, é que poderíamos utlzar uma função de varânca que melhor se ajuste aos dados, sem assumr a pror uma dstrbução de probabldade para esta varável dependente. Além dsso, esta função de varânca pode não pertencer a nenhuma dstrbução de probabldade da famíla exponencal. Por exemplo, uma função de varânca do tpo Var[y ] = µ 2 (1 µ) 2, apresenta o logartmo da função de quaseverossmlhança da forma dada na equação (27) y t y µ Q dµ, (27) ( y µ ) µ µ ; = = y φ V ( t) y 2 2 φ µ ( 1 µ ) que pode ser reescrta como Q 1 φ ( y ; µ ) = ( 2y 1) µ y 1 y log 1 µ µ 1 µ, (28) para 0 < µ < 1 e 0 y 1. Portanto, a função acma demonstrada não corresponde a função de verossmlhança de nenhuma dstrbução de probabldade pertencente a famíla exponencal (PAULA, 2004).

36 2.2.6.1 Estmatvas dos Coefcentes A estmação dos parâmetros β e φ dos Modelos de Quase-verossmlhança é realzada pela maxmzação da função de quase-verossmlhança, produzndo as mesmas estmatvas dos coefcentes dos parâmetros dos modelos que utlzam a função de loverossmlhança, portanto, pode-se usar o mesmo algortmo de estmação dos parâmetros vsto na seção 2.2.4.1. McCullagh e Nelder (1989) descrevem um algortmo teratvo, smlar ao algortmo vsto na seção 2.2.4.1 quando as formas da função de varânca não são guas aos da famíla exponencal. Cox (1996) demonstra que, para funções de varânca que não pertence à famíla exponencal, o algortmo apresentado na seção 2.2.4.1 pode ser utlzado, pos fornece estmatvas consstentes e precsas. 2.2.6.2 Teste de Sgnfcânca Para testar a sgnfcânca dos coefcentes do modelo de regressão pelo teste da razão de verossmlhança tem-se a estatístca de quase-devance. Pode-se dzer que a quasedevance está para a modelagem pela função de quase-verossmlhança como a devance está para a função de verossmlhança. Por analoga, a quase-devance de um modelo qualquer é defnda como o desvo deste modelo em relação ao modelo nulo, sendo: D ( y, ˆ µ ) = 2φ [ Q ( y ; ˆ µ ) Q ( y ; y )] = 2φ [ Q ( y ; ˆ µ )] = 2, (29) V ( ˆ µ ) µ y y ˆ µ em que Q (, µˆ ) é a função de máxma verossmlhança do modelo sob pesqusa e Q ( y y ) y ; é a função de máxma verossmlhança do modelo nulo. Para o Modelo de Quase-verossmlhança defndo pela equação (24), a estatístca de quase-devance é expressa da forma D µ ( y, ˆ µ ) = 2φ [ Q ( y ; ˆ µ )] = 2, (30) φ [ ˆ µ ( 1 ˆ µ )] y y ˆ µ