Métodos Robustos em Regressão Linear para Dados Simbólicos do Tipo Intervalo

Tamanho: px
Começar a partir da página:

Download "Métodos Robustos em Regressão Linear para Dados Simbólicos do Tipo Intervalo"

Transcrição

1 Uversdade Federal de Perambuco Cetro de Iformátca Pós-graduação em Cêca da Computação Métodos Robustos em Regressão Lear para Dados Smbólcos do Tpo Itervalo Marco Atoo de Olvera Domgues Tese de Doutorado Recfe 11 de Juho de 2010

2 Uversdade Federal de Perambuco Cetro de Iformátca Marco Atoo de Olvera Domgues Métodos Robustos em Regressão Lear para Dados Smbólcos do Tpo Itervalo Tese de Doutorado Trabalho apresetado ao Programa de Pós-graduação em Cêca da Computação do Cetro de Iformátca da Uversdade Federal de Perambuco como requsto parcal para obteção do grau de Doutor em Cêca da Computação. Oretadora: Co-oretador: Profa. Dra. Reata Mara Cardoso Rodrgues de Souza Prof. Dr. Fracsco José de Azevêdo Cyseros Recfe 11 de Juho de 2010

3 Domgues, Marco Atoo de Olvera. Métodos robustos em regressão lear para dados smbólcos do tpo tervalo / Marco Atoo de Olvera Domgues. - Recfe: O autor, x, 72 folhas: l., fg., tab. Tese (doutorado) - Uversdade Federal de Perambuco. CIN. Cêca da Computação, Iclu bblografa. 1.Itelgêca artfcal. 2. Modelos de regressão. 3. Varável tervalar. 4. Dados smbólcos. I. Título CDD (22.ed.) MEI

4

5 à mha mãe, pelo exemplo de vda.

6 Agradecmetos À FAPEAM - Fudação de Amparo à Pesqusa do Estado do Amazoas. Agradeço pelo costate apoo o decorrer do programa do doutorado. À baca avaladora. Agradeço à baca examadora da tese formada pelos professores Rcardo Prudêco (UFPE), Gauss Moutho (UFRPE), Flávo Foglatto (UFRGS), Wlso Rosa (UFRPE) e Adré Carvalho (USP-São Carlos), pesqusadores que além de cotrbuírem com recomedações a avalação fal e a defesa da proposta de tese, foreceram oretações durate o processo. Aos meus oretadores. As pessoas mas mportates para a realzação deste trabalho. Através de uma oretação pautada o compahersmo, a motvação do aluo, a preseça costate e a hoestdade, a Dra. Reata Souza e o Dr. Fracsco Cyseros proporcoaram as codções deas de pesqusa bem como também ajudaram a ter a persstêca ecessára para a coclusão do trabalho. Aos outros partcpates da pesqusa. Agradeço a todos que partcparam dreta ou dretamete da pesqusa os dversos expermetos realzados. Fca aqu mha gratdão aos colegas do grupo de aálse de dados smbólcos. Aos meus pas. Eles foram a referêcas a mha vda. Pessoas que dedcaram a vda para que eu tvesse uma boa formação. Nos mometos mas dfíces eles também sempre se mostraram exemplos de persstêca. Júlo César e Hlda, esta tese é dedcada à vocês. À mha amada esposa. Preseça costate, compreesão máxma, compahera de todas as horas. v

7 Resumo A aálse de dados smbólcos (Symbolc Data Aalyss - SDA) tem se destacado como um cojuto de ferrametas útes à aálse de grades bases de dados, apredzagem de máqua e recohecmeto de padrões. Os dados smbólcos podem represetar varáves estruturadas, lstas, tervalos e dstrbuções. Nesse cotexto, város métodos estatístcos têm sdo esteddos para o domío de SDA (aálse de cluster, estatístcas descrtvas, compoetes prcpas, aálse fatoral, regressão lear, e outras). Como exemplo, os métodos de regressão lear propostos recetemete para dados smbólcos são extesões do método dos mímos quadrados para mmzação dos erros do modelo. Estes métodos estmam os parâmetros do modelo da regressão lear cosderado apeas as formações sobre os potos médos (cetros) das varáves smbólcas, cosderado os valores dos lmtes ferores e superores dos tervalos e cosderado os valores dos potos médos e das ampltudes dos tervalos. Apesar da técca dos mímos quadrados ser computacoalmete smples, a qualdade dos ajustes é degradada quado o cojuto sob vestgação cotém dados atípcos. Na aálse de regressão clássca, esses dados atípcos são frequetemete removdos do cojuto de dados sob vestgação, sedo ormalmete cosderados como erros do processo. Cotudo, em SDA, esse tpo de procedmeto ão é acoselhável, haja vsta um dado smbólco poder represetar a geeralzação de um cojuto de outras observações clásscas. Este trabalho propõe um método resstete (robusto) de regressão lear para dados smbólcos do tpo tervalo, paramétrco, sprado a aálse de regressão smétrca, cujos estmadores teham alto poto de ruptura. O método proposto permte ada a costrução de tervalos de cofaça e testes de hpóteses para os parâmetros do ajuste, equato os métodos ecotrados a lteratura ão estabelecem suposções probablístcas. Além dsso, cosderado que a ausêca de observações atípcas em um cojuto de dados dca a possbldade de utlzação de métodos baseados os mímos quadrados, esta tese também propõe um cojuto de téccas para a detfcação de dados smbólcos tervalares atípcos. Palavras-chave: Aálse de dados smbólcos, modelo resstete de regressão lear smbólca, detecção de outlers smbólcos tervalares. v

8 Abstract Symbolc Data Aalyss (SDA) has emerged as a set of useful tools to aalyze large databases, mache learg ad patter recogto. Symbolc data may represet structured varables, lsts, tervals ad dstrbutos. I ths cotext, dfferet statstcal methods have bee exteded to the SDA doma (such as cluster aalyss, descrptve statstcs, ma compoets, factor aalyss, lear regresso, etc.). For stace, the recetly proposed symbolc data lear regresso methods exted the method of least squares to the mmzato of the model errors. These methods estmate the regresso parameters o the average pots (ceters) of symbolc varables, o the upper ad lower lmts of the rages ad o the mdpots of the tervals ad ampltudes. Although the least square method s computatoally smple the presece of outlers the data set uder vestgato degrades the qualty of the adjustmets. I classcal regresso aalyss, these outlers are ofte removed from the data set uder vestgato, beg usually regarded as errors of the process. Nevertheless, SDA, ths procedure s usutable as a sgle symbolc data may represet the geeralzato of a subset of other classcal observatos. Ths work proposes a robust terval symbolc data lear regresso method, whch s parametrcal ad based o the symmetrcal regresso aalyss, whose estmators have hgh breakdow pot. The proposed method also eables the costructo of cofdece tervals ad hypothess tests for the adjustmet parameters, whereas the methods the lterature do ot provde probablstc assumptos. Addtoally, cosderg that the absece of outlers the data set dcates the possblty of usg the least square-based methods, ths thess also proposes a set of techcs to detect terval symbolc data outlers. Keywords: Symbolc data aalyss, robust symbolc lear regresso model, terval symbolc data outlers. v

9 Sumáro 1 Itrodução Cotexto e motvação Objetvos Estrutura do trabalho 3 2 Regressão Lear Smbólca para Dados Itervalares Itrodução O modelo clássco de regressão lear O modelo clássco de regressão lear Estmação Resíduos Regressão lear smbólca Aálse de dados smbólcos Tpos de dados smbólcos Varáves smbólcas do tpo tervalo Métodos de regressão lear para dados smbólcos do tpo tervalo Método do cetro Método dos mímos e máxmos Método do cetro e da ampltude Regressão smbólca com restrções Cometáros fas 25 3 Detecção de Outlers em Dados Smbólcos Itervalares Itrodução Motvação e justfcatva Esboço das soluções Detecção de outlers tervalares baseada em aálse de cluster Breve trodução do modelo para mstura de gaussaas (EM-MMG) 30 v

10 SUMÁRIO v Um método de cluster para dados smbólcos do tpo tervalo baseado em expectato-maxmzato (MS-EM) Etapa de calzação de θ E-step M-step O algortmo Detecção de outlers tervalares baseada em aálse de resíduos Método dos Resíduos Smbólcos Padrozados - MRSP PRESS para Resíduos Smbólcos - PRESS-RS Método híbrdo para detecção de outlers tervalares Expermetos com dados smbólcos do tpo tervalo smulados Dados smbólcos smulados do tpo tervalo Costrudo ceáros com outlers Aálse de desempeho Smulação Mote Carlo para o método MS-EM Smulação Mote Carlo para aálse de resíduos Detecção de outlers smbólcos tervalares em dados reas Cometáros fas 50 4 Regressão Smétrca para Dados Smbólcos do Tpo Itervalo Itrodução Motvação Regressão lear smétrca Regressão lear smétrca para dados smbólcos Expermetos com dados tervalares smulados Dados smbólcos do tpo tervalo smulados Aálse de desempeho Aplcação com o cojuto de dados Amata Cometáros fas 63 5 Coclusão Cotrbuções Trabalhos futuros Publcações 66

11 Lsta de Fguras 3.1 Gráfco de espalhameto com dferetes tervalos outlers Fução desdade de probabldade da dstrbução gama Dados smbólcos cotamados de acordo com as cofgurações da Tabela Base de dados smbólca de cogumelos do gêero Amata Cojutos de dados tervalares 1, 2, 3 e 4 cotedo retâgulos outlers 60 x

12 Lsta de Tabelas 1.1 Méda mesal das temperaturas, máxma e míma dáras, regstradas em 60 estações meteorológcas chesas [3] Dados para o modelo Tabela com dados clásscos [14] Descrção dos dados da Tabela Realzações das descrções dos cocetos w u Crtéros utlzados para estmação dos parâmetros de regresssão smbólca [18] Tabela de dados com p varáves quattatvas Tabela de dados com varáves smbólcas do tpo tervalo Parâmetros de cofguração para geração de outlers Resultados do desempeho do MS-EM as smulações cosderado matrzes de covarâca completa e dagoal para os ceáros 1 e Resultados do desempeho do MS-EM as smulações cosderado matrzes de covarâca completa e dagoal para os ceáros 3 e Resultados do desempeho do MRSP cosderado os resíduos de um ajuste de regressão lear para os dados smbólcos dos ceáros 1, 2, 3 e Resultados do desempeho do PRESS-SR cosderado os resíduos de um ajuste de regressão lear para os dados smbólcos dos ceáros 1, 2, 3 e Resultados do desempeho do EM-MMG uvarado cosderado os resíduos de um ajuste de regressão lear para os dados smbólcos dos ceáros 1, 2, 3 e Ampltude dos tervalos do píleo, comprmeto e espessura do estpe dos cogumelos do gêero Amata [37] Parâmetros de cofguração para os hpercubos o IR 2 e IR Comparação etre modelos de regressão de acordo com a taxa de rejeção (%) de H 0 para os cojutos de dados tervalares o IR Comparação etre modelos de regressão de acordo com a taxa de rejeção (%) de H 0 para os cojutos de dados tervalares o IR x

13 CAPÍTULO 1 Itrodução 1.1 Cotexto e motvação O crescete aumeto do volume das bases de dados tem mposto a ecessdade de ovas tecologas para armazeameto, extração de cohecmeto, represetação, tratameto e aálse dos dados, sobretudo de modo efcete. Neste ceáro, a aálse de dados smbólcos (SDA - Symbolc Data Aalyss [1]) se destaca como uma ova abordagem relacoada à aálse de dados, apredzagem de máqua, recohecmeto de padrões e bases de dados. SDA possblta a agregação de bases de dados clásscos em estruturas mas complexas, porém meores em tamaho, chamadas de dados smbólcos. Os dados smbólcos podem represetar varáves estruturadas, lstase, tervalos e dstrbuções. Além dsso, város métodos estatístcos para tratameto de dados clásscos têm sdo esteddos para o domío dos dados smbólcos (estatístcas descrtvas, aálse de cluster, compoetes prcpas, aálse fatoral, regressão lear, etc). Algus destes métodos ão foram totalmete desevolvdos e ada apresetam potos de pesqusa em aberto. Esta tese lda especfcamete com os problemas em aberto da área de regressão lear para dados smbólcos do tpo tervalo. Os dados smbólcos do tpo tervalo podem ser empregados em váras aplcações como faceras, em aálse de tráfego de redes, em meração de dados, detre outras. A Tabela 1.1 mostra um exemplo de dados smbólcos do tpo tervalo ode cada célula cotém a méda mesal, míma e máxma, dos regstros dáros de temperatura gerados a partr de 60 estações de meteorologa a Cha [3]. Tabela 1.1 Méda mesal das temperaturas, máxma e míma dáras, regstradas em 60 estações meteorológcas chesas [3] Statos Mothly temperature ([m : max]) - Year 1998 Jauary February... November December AQg [1.8 : 7.1] [2.1 : 7.2]... [7.8 : 17.9] [4.3 : 11.8]... ZhJag [2.7 : 8.4] [2.7 : 8.7]... [8.2 : 20] [5.1 : 13.3]... 1

14 1.2 OBJETIVOS 2 O prmero método de regressão lear para dados smbólcos fo proposto em 2000 [2]. Tal método tem como objetvo estmar os parâmetros de regressão sobre os potos médos (cetros) das varáves smbólcas de atureza tervalar. Posterormete, outros métodos surgram propodo a estmação dos parâmetros do modelo de regressão sobre outras característcas dos dados smbólcos de atureza tervalar, como os lmtes ferores e superores dos tervalos, os potos médos e a ampltude do tervalo. Todas essas abordages realzam o processo de estmação dos parâmetros da regressão através da mmzação dos erros do modelo, ou seja, através do emprego do método dos mímos quadrados ordáros (OLS - Ordary Least Squares). Apesar de a técca dos mímos quadrados ser bastate utlzada devdo prcpalmete à sua smplcdade, a qualdade dos ajustes é degradada quado o cojuto sob vestgação cotém dados atípcos. Obvamete sso ão sera problema se tas observações fossem raras ou ão ocorressem. Cotudo, uma das prcpas abordages para extração de dados smbólcos é o processo de geeralzação de bases de dados clásscas, e quado há observações atípcas as bases clásscas, potecalmete surgrão observações atípcas os dados smbólcos. Uma stuação frequete a aálse clássca de dados é julgar as observações atípcas como erros do processo e smplesmete removê-las do cojuto de dados. Esse tpo de procedmeto é acetável a aálse de dados smbólcos, haja vsta um dado smbólco poder represetar a geeralzação de um cojuto de outras observações clásscas. Além dsso, há outras orges para a ocorrêca de observações atípcas. Outro problema relacoado aos outlers em dados smbólcos do tpo tervalo é a ausêca de téccas para detfcá-los etre os dados. Nesse setdo, este trabalho propõe calmete um cojuto de téccas para a detfcação de dados smbólcos tervalares atípcos. A ausêca de observações atípcas dca a possbldade de utlzação de métodos baseados os mímos quadrados. Porém, o objetvo prcpal desta tese é propor um método resstete (robusto) de regressão lear para dados smbólcos do tpo tervalo, paramétrco, baseado a aálse de regressão smétrca, com alto poto de ruptura, e que, detre todas as característcas, permte a costrução de tervalos de cofaça e testes de hpóteses para os parâmetros do ajuste. Os métodos até etão propostos ão estabelecem suposções probablístcas. 1.2 Objetvos O objetvo prcpal deste trabalho é desevolver um cojuto de soluções teórcas e aplcadas a área de regressão lear em dados smbólcos do tpo tervalo, cujos resultados sejam

15 1.3 ESTRUTURA DO TRABALHO 3 qualtatvamete superores aos dos métodos atualmete utlzados. Como meta para que esse objetvo seja atgdo, 6 potos foram defdos para serem resolvdos esta tese: 1. Propor uma famíla de soluções para detecção de outlers baseada em aálse de cluster e em aálse de resíduos; 2. Desevolver um método robusto de regressão smbólca baseado em regressão smétrca; 3. Desevolver métodos para geração de dados smbólcos smulados mas semelhates aos dados smbólcos reas; 4. Produzr ceáros com esses métodos para a valdação expermetal das soluções propostas a tese; 5. Aplcar as soluções propostas a tese em cojutos de dados smbólcos do repostóro do sstema SODAS ou de outros repostóros dspoíves; 6. Empregar as metodologas propostas em aplcações em redes 4G. 1.3 Estrutura do trabalho Além deste capítulo trodutóro, este trabalho clu os segutes capítulos: Capítulo 2 - Regressão Lear Smbólca para Dados Itervalares Este capítulo apreseta o estado da arte em regressão lear smbólca para dados tervalares, jutamete com a apresetação dos cocetos que serão utlzados os capítulos posterores. Capítulo 3 - Detecção de Outlers em Dados Smbólcos Itervalares Este capítulo propõe um cojuto de téccas para detecção de observações atípcas em dados smbólcos tervalar baseadas em aálse de cluster e de resíduos. A abordagem baseada em cluster propõe uma adaptação do algortmo Expectato-Maxmzato para o domío dos dados smbólcos do tpo tervalo como ferrameta para agrupameto das observações em dos grupos, com um dos grupos cotedo as observações atípcas. A seguda abordagem é baseada

16 1.3 ESTRUTURA DO TRABALHO 4 a aálse de resíduos e é composta por 3 téccas. As téccas MRSP e PRESS cosstem bascamete a mposção de um lmar aos resíduos smbólcos para detfcar potecas outlers. A tercera técca é um híbrdo das duas abordages. A proposta cosste de uma adaptação do algortmo de mstura de gaussaas (EM-MMG) para o cojuto de resíduos obtdos pelo método MRSP. Falmete é apresetado um cojuto de resultados dos expermetos com smulações e dados reas realzadas com todas as soluções propostas esse capítulo. Capítulo 4 - Regressão Smétrca para Dados Smbólcos do Tpo Itervalo Este capítulo propõe um ovo modelo de regressão lear para dados smbólcos do tpo tervalo. Essa solução é sprada a metodologa de regressão lear smétrca cuja prcpal característca é proporcoar estmadores resstetes (robustos) à preseça de dados smbólcos tervalares atípcos. O modelo também permte a costrução de tervalos de cofaça e testes de hpóteses sobre os parâmetros do modelo. Ao fal do capítulo, é apresetado um cojuto de resultados da aplcação dessa solução em ceáros smulados e com dados smbólcos tervalares reas. Capítulo 5 - Coclusão Este capítulo apreseta as coclusões, os artgos gerados a partr desta tese e dscute as dreções para os trabalhos futuros.

17 CAPÍTULO 2 Regressão Lear Smbólca para Dados Itervalares Este capítulo está dvddo em duas partes: calmete será apresetado um resumo teórco sobre a metodologa de regressão lear para dados clásscos como suporte para acompahameto dos cocetos defdos a metodologa de regressão lear smbólca para dados tervalares, uma vez que o modelo de regressão lear smbólca é fortemete sprado o modelo para dados clásscos. Posterormete serão apresetados os três métodos propostos a lteratura para ajustar modelos de regressão lear sobre dados smbólcos do tpo tervalo. 2.1 Itrodução A aálse de dados através de regressão lear está etre as téccas mas utlzadas para costrução de modelos para descrever o comportameto de uma varável depedete (varável resposta) a partr de um cojuto de outras varáves depedetes (varáves explcatvas). A metodologa de regressão lear é aplcada em dversas áreas de pesqusa, como a facera, a epdemológca, a médca, a ecoômca, etc. Em todas essas áreas, um dos métodos de estmação dos parâmetros do modelo mas utlzado é baseado a mmzação de um crtéro - a soma dos quadrados dos erros. Este método, mímos quadrados ordáros (Ordary Least Squares- OLS), tem a vatagem de ser computacoalmete smples e de forecer os melhores estmadores leares ão vesados para os parâmetros do modelo [4]. Além dsso, o método dos mímos quadrados ão ecessta de suposções de dstrbuções de probabldade para a obteção dos estmadores. Cotudo, os estmadores de mímos quadrados são fortemete fluecados pela preseça de observações dscrepates etre os dados. Uma úca observação pode comprometer a qualdade dos estmadores. Os modelos de regressão smbólca apresetados a partr da Seção 2.3 utlzam o método dos mímos quadrados para estmação dos parâmetros do modelo smbólco e, cosequetemete, apresetam as mesmas desvatages do modelo clássco, por exemplo, o mesmo poto de ruptura do método dos mímos quadrados. Itutvamete, o poto de ruptura de um estmador 5

18 2.2 O MODELO CLÁSSICO DE REGRESSÃO LINEAR 6 ˆθ para um parâmetro θ pode ser defdo como sedo a maor proporção de cotamação (proporção de observações atípcas) que os dados podem coter de modo que ˆθ ada foreça formações sobre θ. O poto de ruptura pode ser utlzado como uma medda para robustez de um estmador e a defção formal dessa medda pode ser ecotrada em [5]-[8]. Por exemplo, o método OLS tem poto de ruptura em 0%, sto é, uma smples observação atípca é sufcete para exercer forte fluêca os estmadores. Covém ressaltar que ehum dos modelos de regressão smbólca propostos a lteratura cotempla suposção de dstrbuções de probabldades para os erros, vablzado a costrução de tervalos de cofaça e testes de hpótese para os parâmetros do modelo. 2.2 O modelo clássco de regressão lear A aálse de regressão é uma metodologa estatístca utlzada para vestgar, modelar e predzer a relação etre uma ou mas varáves resposta (depedetes) e um cojuto de varáves predtoras (depedetes), também chamadas de varáves explcatvas ou regressoras. A Tabela 2.1 apreseta a descrção das observações utlzadas esta seção. Tabela 2.1 Dados para o modelo Observação Varáves Regressoras Varável Resposta x 1 x 2... x p y 1 x 11 x x 1p y 1 2 x 21 x x 2p y x 1 x 2... x p y A tabela é composta por observações, em que y,( = 1,2,...,) represeta a varável resposta e x j,( j = 1,2,..., p) represeta o cojuto de varáves regressoras. É mportate ressaltar que as observações descrtas a abordagem baseada em cluster proposta o Capítulo 3 ão fazem dstção etre varáves resposta e varáves regresssoras O modelo clássco de regressão lear Cosdere que a varável resposta y a Tabela 2.1 está relacoada com as respectvas varáves regressoras x j através do segute modelo:

19 2.2 O MODELO CLÁSSICO DE REGRESSÃO LINEAR 7 y = β 0 + β 1 x β p x p + ε (2.1) [Resposta] = [méda (depedete de x 1,x 2,...,x p )] + [erro] A metodologa clássca de regressão lear múltpla com uma úca varável resposta pode ser empregada para estmar os coefcetes β 0,β 1,...,β p em (2.1). Em resumo, esse modelo estabelece que y é composto por uma méda que depede cotuamete dos valores de x e por um erro aleatóro ε. Esse erro aleatóro pode ser proveete do efeto de outras varáves ão cosderadas explctamete o modelo e/ou de evetuas erros relatvos ao própro processo de obteção da varável resposta. O termo lear está relacoado à méda como sedo uma fução dos parâmetros descohecdos β 0,β 1,...,β p. Cosderado observações depedetes em y e os seus respectvos valores x assocados, o modelo completo tora-se: y 1 = β 0 + β 1 x 11 + β 2 x β p x 1p + ε 1 y 2 = β 0 + β 1 x 21 + β 2 x β p x 2p + ε 2. =. y = β 0 + β 1 x 1 + β 2 x β p x p + ε (2.2) Algumas suposções sobre as propredades dos erros ε do modelo são ecessáras: E(ε ) = 0; Var(ε ) = σ 2 é costate; Cov(ε,ε k ) = 0, k. (2.3) A Equação (2.2) também pode ser defda em otação matrcal como Ou ada y 1 y 2. y 1 x 11 x x 1p = 1 x 21 x x 1p x 1 x 2... x p β 0 β 1. + ε 0 ε 1 β p ε..

20 2.2 O MODELO CLÁSSICO DE REGRESSÃO LINEAR 8 y = ( 1) X β + ε. ( (p+1)) ((p+1) 1) ( 1) Em otação matrcal, as suposções em 2.3 toram-se: E(ε) = 0; Cov(ε) = σ 2 I. (2.4) A prmera colua da matrz X possu todos os valores guas a 1 (um), represetado o vetor multplcador do coefcete β 0, também, chamado de tercepto. Cada valor observado x j de X represeta a ésma observação da varável explcatva x j. O vetor de erros ε tem méda zero, varâca σ 2 e são ão-correlacoados Estmação A estmação do modelo de regressão cosste em defr uma fução de regressão e estmar os parâmetros β de regressão tomado por base amostras de dados em X e y. Os métodos de estmação do modelo de regressão baseam-se, ormalmete, a mmzação de uma fução dos erros. A estmação dos parâmetros pelo método de mímos quadrados (Ordary Least Squares - OLS) cosste em mmzar =1 ε2, que represeta a soma dos quadrados das dstâcas etre as observações do cojuto de dados e os valores ajustados pelo modelo de regressão. A Equação (2.5) resume o modelo clássco de regressão das Equações (2.2): y = Xβ + ε. (2.5) Deseja-se ecotrar o vetor ˆβ de mímos quadrados que mmza a soma dos quadrados dos erros (SQE), defda em otação matrcal por: ou ada SQE(β) = =1 ε 2 = ε T ε = (y Xβ) T (y Xβ), (2.6) SQE(β) = y T y β T X T y y T Xβ + β T X T Xβ SQE(β) = y T y 2β T X T y + β T X T Xβ. (2.7)

21 2.2 O MODELO CLÁSSICO DE REGRESSÃO LINEAR 9 Cosderado que β T X T y é um escalar e sua trasposta (β T X T y) T = y T Xβ é o mesmo escalar. Portato, para ecotrar os estmadores de mímos quadrados, deve-se mmzar a Equação (2.7) em relação a β e resolver o sstema de equações leares dadas por: Da Equação (2.8) resulta SQE(β) β = 2X T y + 2X T X ˆβ = 0 (2.8) X T X ˆβ = X T y. (2.9) A equação (2.9) é cohecda como um cojuto de equações ormas de mímos quadrados e seus estmadores ˆβ podem ser ecotrados aplcado aos dos lados da Equação (2.9) a versa de X T X, desde que ele exsta, ˆβ = (X T X) 1 Xy. (2.10) Desde que a matrz X tem posto completo, etão a matrz X T X é versível e a solução do sstema de equações ormas é úca. O estmador de mímos quadrados ˆβ em (2.10) mmza a soma dos quadrados dos erros SQE sem fazer qualquer suposção quato à sua dstrbução de probabldades. Cotudo, para a costrução de tervalos de cofaça e testes de hpótese, é ecessáro supor que a dstrbução codcoal de y dado X é ormal. A méda dessa dstrbução é especfcada por: e a varâca é dada por: µ = E(y x) = β + β 1 x 1 + β 2 x β p x p (2.11) Var(y x) = Var(β + β 1 x 1 + β 2 x β p x p + ε) = σ 2 (2.12) O modelo de regressão lear ajustado para um determado cojuto de observações x T = [1,x 1,x 2,...,x p ] é dado por: ŷ = x T ˆβ = ˆβ 0 + p ˆβ j x j. (2.13) j=1 O vetor de valores ajustados ŷ relatvos aos valores observados y tem a forma: ŷ = X ˆβ = X(X T X) 1 X T y = Hy. (2.14)

22 2.2 O MODELO CLÁSSICO DE REGRESSÃO LINEAR 10 A matrz ( ) H = X(X T X) 1 X T é smétrca (H T = H) e dempotete (HH=H), sedo, também, cohecda por matrz de projeção ou matrz chapéu. Os elemetos h da dagoal de H só depedem dos valores das varáves regressoras e podem ser utlzados como uma medda de alavacagem da ésma observação. Se h é grade, ormalmete os valores das varáves explcatvas assocados à ésma observação são atípcos e são chamados de potos de alavaca. Normalmete, utlza-se h 2p/ como um lmar para dcação de potecas potos de alavaca. Esses potos de alavaca exercem forte fluêca os estmadores do modelo de regressão e por sso, o modelo smbólco proposto, serão vestgados com outras meddas de dagóstco Resíduos O vetor de erros ão observados ε pode ser estmado pelo vetor de resíduos e. Este, por sua vez, é a dfereça etre o valor observado y e seu respectvo valor ajustado ŷ, sto é, e = y ŷ, ou em otação matrcal: O vetor de resíduos pode ser escrto de outras formas: e = y ŷ. (2.15) e = y X ˆβ = y Hy = (I H)y (2.16) em que I represeta a matrz detdade de ordem. Os resíduos podem dar formações útes quato à qualdade do ajuste das observações, pos se forem mal ajustadas, devem apresetar grades valores em módulo. A méda dos resíduos é 0 (zero) e a varâca, Var(e ) = σ 2 (1 h ). Esta, por ão ser costate, faz com que a aálse dos resíduos defdos em (2.16) foreça pouca formação. Cotudo, pela sua aálse, percebe-se que observações com grade alavacagem têm resíduos de meor varabldade do que observações com pequea alavacagem. A solução apresetada a Seção 3.3 é utl para permtr a comparação dos resíduos. Os chamados resíduos padrozados possuem varâca costate e próxma de um. Também podem ser utlzados para detectar observações dscrepates caso os valores absolutos dos resíduos sejam maores do que um certo lmar. Neste trabalho os métodos smbólcos baseados a aálse dos resíduos adotam lmar = 3.

23 2.3 REGRESSÃO LINEAR SIMBÓLICA Regressão lear smbólca Todos os métodos de regressão lear para dados smbólcos do tpo tervalo propostos a lteratura utlzam o método dos mímos quadrados (OLS) como técca para estmação dos parâmetros. O método OLS, apesar de bastate utlzado, tem algumas desvatages, e todas elas são herdadas pelos métodos de regressão smbólca tervalar propostos. No cotexto deste trabalho, as soluções smbólcas apresetadas e propostas tratam dos dados smbólcos do tpo tervalo, cotudo, é pertete a apresetação de outras característcas dos dados smbólcos a seção segute Aálse de dados smbólcos Em aplcações de tomada de decsão é frequetemete ecessáro levar em cosderação a mprecsão, certeza ou varabldade dos dados para represetar a formação dspoível. Nesses casos, a represetação clássca de dados ão é a mas aproprada para represetar todas essas partculardades, e em ceáros como esses, a represetação de formação através dos dados smbólcos é mas adequada. A aálse de dados smbólcos é útl para ldar com dados mprecsos, quado são resultates de meddas com mprecsão relatva ou estmadas por tervalos de cofaça. Também pode ser usado para represetar os lmtes de um cojuto de possíves valores de um tem ou a varação da extesão de uma varável através da redução de cojutos de dados em um úmero reduzdo de pequeos grupos de formação. Dados smbólcos do tpo tervalo também são relevates o caso de aplcações com dados cofdecas em que somete permte-se cohecer a extesão dos valores. A Aálse de Dados Smbólcos (ADS) é um campo de pesqusa relacoado à aálse multvarada, recohecmeto de padrões e telgêca artfcal, que oferece métodos adequados para ldar com dados tervalares, etre outros [9]. Um dos objetvos da ADS é prover téccas para redução de extesas bases de dados clásscos em bases de observações smbólcas para posteror aálse exploratóra através do emprego de téccas de meração. A represetação de cohecmeto através dos dados smbólcos permte a atrbução de múltplos valores e regras para cada varável. Essas ovas varáves (cojutos, tervalos e hstogramas) toram possível reter formações sobre a varabldade tríseca ou certeza do cojuto de dados orgal, como apresetado em [1].

24 2.3 REGRESSÃO LINEAR SIMBÓLICA Tpos de dados smbólcos Os dados smbólcos foram propostos com o objetvo de troduzr uma descrção mas ampla das observações ormalmete armazeadas usado valores potuas, quattatvos e categórcos. Cosdere os ceáros descrtos abaxo: Supoha que temos as segutes varáves de teresse: x 1 = {Cor}, x 2 = {Peso}, x 3 = {Parteocarpa} e a população de teresse Ω= {Espéces de Pupuhas} [11]. A pupuha (Bactrs gaspaes) é uma fruta muto saborosa e rca em utretes que ocorre em toda a Amazôa e faz parte da deta dos atvos da regão. O peso do fruto maduro da pupuha pode varar etre 1,0 e 97,5 gramas, pode apresetar coloração amarela, vermelha ou verde, e pode ocorrer ausêca de semete o fruto (parteocarpa). Uma dada espéce k Ω sem semete, x 3 (k) = {S}, tem peso meor do que 53 gramas, x 2 (k) = [1,0 : 53], e ocorre predomatemete a cor verde, x 1 (k) = {Verde}. Não é tarefa smples serr este tpo de formação/regra em uma base de dados tradcoal. Este tpo de pupuha é melhor represetada pela descrção: [Peso = [1,0 : 97,5]],[Cor = {verde,amarelo,vermelho}], [Parteocarpa = {SIM(S), NÃO(N)}] e [se{parteocarpa = S} etão {Peso < 53 e Cor = verde}] Esta é uma descrção assocada ao coceto de varável aleatóra smbólca da pupuha. (Peso,Cor, Parteocarpa) = ([1, 0 : 97, 5],{amarelo, vermelho, verde},{sim,não}) Em outro cotexto, supoha que uma operadora de telefoa celular possua um baco de dados com as formações referetes às característcas de utlzação de acesso em 4G de seus usuáros. Nessa base são armazeadas formações relatvas aos requstos das aplcações utlzadas e característcas dos cletes. São exemplos dessas formações as taxas de trasmssão pratcadas, os destos pesqusados, o volume de dados de upstream e dowstream, as classes de cotrato (volume de dados upstream/dowstream), custo por bt recebdo/trasmtdo, padrões de QoS, etc. Com o cotíuo crescmeto do úmero de usuáros e com a chegada da quarta geração da telefoa celular, a prevsão é que a quatdade de formações armazeadas cresça cosderavelmete. Os dados smbólcos apresetam téccas cosstetes para sumarzar grades bases de dados clásscos em ovos cojutos de dados smbólcos com tamaho reduzdo, facltado o gerecameto e, em algus casos, sem ehuma perda de formação [12][13]. Outro ceáro muto comum as corporações ocorre quado exste a ecessdade de dvulgação de formações de caráter sgloso como faxas salaras, valores em vest-

25 2.3 REGRESSÃO LINEAR SIMBÓLICA 13 metos de rsco ou percetuas de acdetes de trabalho. Esse tpo de dado pode ser expresso através de dados smbólcos usado tervalos, dstrbuções de frequêcas ou dstrbuções de probabldade. Os ceáros apresetados motvam a utlzação dos dados smbólcos para represetação dos dados complexos descrtos. Cotudo, apeas o tpo de dado smbólco de atureza tervalar será objeto deste trabalho. A descrção dos outros tpos de dados smbólcos pode ser ecotrada a lteratura pertete [14][15]. A Tabela 2.2 [14], cotedo dados clásscos, será utlzada para lustrar os cocetos ecessáros para a defção de dado smbólco tervalar, gerado a partr da aplcação do processo de geeralzação de bases clásscas. Essa tabela é composta por regstros médcos de dvíduos de uma típca compaha de seguros. A descrção dos campos da tabela (varáves x j ) é apresetada a Tabela 2.3. Para cada ésmo dvíduo há um regstro composto por formações famlares (estado cvl, úmero de flhos, úmero de rmãos, etc.) e formações médcas (pressão, peso, colesterol, etc.). Cada lha da Tabela 2.2 é composta por um cojuto de dados clásscos e represeta uma realzação para as varáves aleatóras (x = (x 1,x 2,...,x )) para um determado dvíduo. Para tabelas pequeas como essa, as téccas estatístcas clásscas podem ser empregadas satsfatoramete. Cotudo, quado p e são muto grades, a aálse pode torar-se mpratcável. Os dados smbólcos podem ser extraídos a partr de bases de dados clásscas, como a apresetada a Tabela 2.2. Como exemplo, cosdere descrever as realzações da varável peso para a categora mulheres com seguro médco (Tpo Gêero). Aplcado essa regra à Tabela 2.2 resulta a lsta {34,1; 64,0; 69,0; 75,4}. Estes valores podem ser terpretados como realzações ξ o tervalo [34,1:75,4]. A categora mulheres com seguro médco ou (Tpo - x 2 Gêero - x 4 ) é um exemplo de coceto smbólco. Como há 3 tpos (Detal (D), Médco(M) e Ótco(O)) e dos gêeros (Masc.(M) e Fem.(F)) a tabela, há portato 6 possíves categoras (w) w u E = {w 1,w 2,w 3,w 4,w 5,w 6 }, sedo cada categora um cojuto de dvíduos que satsfazem a descrção da categora. A tabela 2.4 apreseta um grupo de realzações smbólcas para as categoras (Tpo Gêero). Os dados smbólcos podem ser estruturados e podem regstrar a varação dos valores. A Tabela 2.4 lustra algus exemplos do processo de extração de dados smbólcos a partr de bases clásscas [15]. Merece destaque a varável Pulso do coceto/categora w 5. Este exemplo lustra o caso em que um tervalo represeta um poto clássco x = a, cuja realzação smbólca ξ = [a,a].

26 2.3 REGRESSÃO LINEAR SIMBÓLICA 14 Tabela 2.2 Tabela com dados clásscos [14] x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 x 11 x 12 1 Bosto M 24 M S , Bosto M 56 M C , Chcago D 48 M C , El Paso M 47 F C , Byro D 79 F C , Cocord M 12 M S , Atlata M 67 F C , Bosto O 73 F C , Ldfeld D 29 M C , Ldfeld D 44 M C , Bosto D 54 M S , Chcago M 12 F S , Maco M 73 F C , Bosto D 48 M C , Peora O 79 F C , Cocord D 20 M S , Bosto D 20 F S , Chcago D 17 M S , Stowe D 31 M C , Tara M 83 M C , Qucy O 57 M S , Atlata O 86 M C , Varáves smbólcas do tpo tervalo Uma varável Y é do tpo tervalo se ela represeta uma realzação ξ = [a : b] IR 1, com a b e {a, b} IR 1. No exemplo da Tabela 2.4, os tervalos são gerados como resultado da agregação (geeralzação) de dados clásscos [16]. Os valores a u j e b u j do tervalo [a u j : b u j ] referetes à varável j a categora w u são dados por: a u j = m Ω u x j, b u j = max Ω u x j, em que Ω u é o cojuto dos ésmos valores ( Ω) que compõem a categora w u. Exemplos dessa defção podem ser obtdos do cojuto de dados smbólcos da Tabela 2.4. Cosdere a varável Idade para u = 3:

27 2.3 REGRESSÃO LINEAR SIMBÓLICA 15 Tabela 2.3 Descrção dos dados da Tabela 2.2 x Descrção x Descrção x 1 Domcílo x 7 Número de flhos: 0, 1,... x 2 Tpo: Detal(D), Médco(M), Ótco(O) x 8 Peso (em Kg): > 0 x 3 Idade (em Aos): 0 x 9 Pulso: > 0 x 4 Gêero: Masc. (M), Fem. (F) x 10 Pressão sstólca: > 0 x 5 Estado cvl: Soltero (S), Casado (C) x 11 Pressão dastólca: > 0 x 6 Número de pas vvos: 0, 1, 2 x 12 Colesterol Total: > 0 Tabela 2.4 Realzações das descrções dos cocetos w u x 1 x 2 x 3 x 4 x 5 x 6 w u E Tpo Gêero u Idade Est. Cvl Peso Pulso Pas Vvos Colest. w 1 Detal Masc. 8 [17:54] {C,S} [73,1:121,7] [57:81] {0,1,2} [169:264] w 2 Detal Fem. 2 [20:79] {C,S} [69,0:71,3] [75:84] {0,2} [180:187] w 3 Médco Masc. 4 [12:83] {C,S} [33,1:84,4] [68:84] {0,1,2} [109:224] w 4 Médco Fem. 4 [12:73] {C,S} [34,1:69,0] [58:81] {0,1,2} [153:239] w 5 Ótco Masc. 2 [57:86] {C,S} [72,1:83,4] [72:72] {0,1} [152:234] w 6 Ótco Fem. 2 [73:79] {C} [69,5:75,0] [72:77] {0} [118:181] X 1 (w 3 ) = Idade(w 3 ) = Idade(Médco Masculo) = ξ 31 = [12 : 83], cujo resultado é um tervalo que cobre as dades dos homes com plao médco. As varáves smbólcas do tpo tervalo também podem ocorrer (serem empregadas) quado ão é possível obter uma medda precsa das observações, como o caso dos strumetos de medção. Em resumo, os dados smbólcos do tpo tervalo são bastate útes como ferrameta para reduzr o tamaho de bases de dados através do processo de agregação dos dados, porém, essa represetação smbólca tem a desvatagem de ão apresetar as descrções das dstrbuções de frequêcas das observações orgas, partcularmete, o caso de dados smbólcos tervalares obtdos através de agregação. Uma extesão das varáves smbólcas do tpo tervalo fo apresetada em [9] com o propósto de forecer uma vsualzação das frequêcas dos subtervalos compreeddos etre os lmtes de uma varável tervalar. Esse tpo de dado smbólco é chamado de varável smbólca do tpo hstograma. Formalmete, uma varável X é do tpo hstograma se ela represeta valores em um cojuto de tervalos ão-sobrepostos {[a k,b k ], k = 1,2,...} com a k b k. Dessa forma, a realzação

28 2.3 REGRESSÃO LINEAR SIMBÓLICA 16 da varável Y para a observação w u pode ser expressa por: X(w u ) = ξ u = {[a uk : b uk ], p uk k=1,...,su }, (2.17) em que s u é o úmero de subtervalos e p uk é o peso relatvo a cada subtervalo, de tal forma que s u k=1 p uk = 1. Os dados smbólcos do tpo hstograma podem ser obtdos a partr de bases de dados clásscos de modo semelhate aos dados smbólcos tervalares. Como exemplo, cosdere os dados da Tabela 2.3 para agregação em observações tervalares modas. Para o caso das formações relatvas ao colesterol total, a Amerca Heart Assocato [17] cosdera que pessoas com ível de colesterol total abaxo de 200mg/dL ([a,b) = [< 200)) têm baxo rsco de cotraírem doeças do coração, aqueles com ível etre 200mg/dL e 239mg/dL ([a,b) = [200 : 239)) estão a regão lmítrofe e aqueles cujo ível de colesterol total está acma de 240mg/dL ([a, b) = [> 240)) estão mas propesos a desevolverem doeças do coração. Utlzado esses valores para delmtar as regões tervalares, pode-se represetá-las como dados smbólcos do tpo hstograma. A realzação da varável X 6 (w 1 ) da Tabela 2.4 pode ser represetada por: X 6 (w 1 ) = X 6 (gêero : M, plao : Detal) = {[< 200),3/8;[200 : 240),1/2;[ 240),1/8}. Pode-se defr quatas regões forem ecessáras para a realzação do expermeto a crtéro do especalsta. Nesse trabalho, todos os métodos foram desevolvdos para os dados smbólcos do tpo tervalo. A aplcação desses métodos em expermetos com dados do tpo hstograma é um dos trabalhos futuros desta tese Métodos de regressão lear para dados smbólcos do tpo tervalo Esta seção apreseta os três prcpas métodos para ajuste por regressão lear de observações smbólcas do tpo tervalo: método do cetro, método dos mímos e máxmos e método do cetro e da ampltude do tervalo. O processo de estmação dos parâmetros da regressão lear dos três métodos é baseado a mmzação de crtéros predetermados. A Tabela 2.5 sumarza os crtéros utlzados por esses métodos e apreseta os seus respectvos modelos uvarados. Uma característca mportate desses métodos é ão cosderarem suposções de probabldade para os modelos; por essa razão ão utlzam cocetos valosos da metodologa clássca de regressão lear, como a costrução de tervalos de cofaça e testes de hpóteses para os parâmetros do modelo.

29 2.3 REGRESSÃO LINEAR SIMBÓLICA 17 Tabela 2.5 Crtéros utlzados para estmação dos parâmetros de regresssão smbólca [18] Método Crtéro Modelo uvarado correspodete Cetro y f =1 (εc )2 = β 0 + β 1 a + ε f y sup = β 0 + β 1 b + ε sup Mímos e máxmos =1 ((ε f ) 2 + (ε sup ) 2 ) y f y sup = β f 0 + β f 1 a + ε f = β sup 0 + β sup 1 b + ε sup Cetro e Rage (Ampltude) =1 ((εc )2 + (ε r )2 ) y c = β c 0 + β c 1 xc + εc y r = β r 0 + β r 1 xr + εr Método do cetro O método do cetro cosste em ajustar um modelo de regressão lear (OLS) para os potos médos das varáves smbólcas do tpo tervalo e aplcar este modelo aos lmtes ferores (f) e superores (sup) das varáves smbólcas regressoras para predzer os lmtes ferores e superores da varável smbólca resposta. O poto médo é dado por: ε c = (ε f + ε sup ). (2.18) 2 Os lmtes ferores e superores da varável resposta são predtos através da aplcação do vetor de parâmetros ˆβ aos lmtes ferores e superores das varáves regressoras. O vetor β é o mesmo para os lmtes ferores e superores. O método do cetro para varáves smbólcas do tpo tervalo pode ser formalmete defdo do segute modo: Seja E = {w 1,w 2,...,w } um cojuto de cocetos smbólcos apresetados a Tabela 2.4, descrtos por p + 1 varáves smbólcas do tpo tervalo: {y,x 1,x 2,...,x p }. Além dsso, cosdere cada coceto w E( = 1,2,...,) represetado por um vetor de realzações tervalares z = (x,y ), em que x = (x 1,x 2,...,x j,...,x p ), x j = ξ j = [a j : b j ] Ω = {[a : b] : a b;a,b IR 1 }( j = 1,..., p) e y = [y f : y sup ] Ω, caracterzado os valores observados de X j e Y (defção a Seção ). Cosdere o cojuto de varáves X 1,X 2,...,X p como varáves regressoras relacoadas learmete com uma varável resposta Y através do modelo: y f = β 0 + β 1 a 1 + β 2 a β p a p + ε f, y sup = β 0 + β 1 b 1 + β 2 b β p b p + ε sup. (2.19)

30 2.3 REGRESSÃO LINEAR SIMBÓLICA 18 A partr das Equações (2.18) e (2.19), pode-se desevolver o crtéro de mmzação do método (Soma dos quadrados dos erros) do cetro: (ε f + ε sup ) 2 = (y f β 0 β 1 a 1... β p a p + (=1) (=1) + y sup β 0 β 1 b 1... β p b p ) 2. (2.20) Os valores dos parâmetros β que mmzam a (2.20) são determados através da dferecação dessa equação em relação a cada elemeto de β, de modo semelhate ao processo de estmação dos parâmetros da Seção 2.2.2, resultado as equações ormas para o método do cetro: ˆβ 0 + ˆβ 1 x1 c ˆβ p p =1 =1x c = =1 ˆβ 0 x1 c + ˆβ 1 (x1 c ) ˆβ p xpx c c 1 = =1 =1 =1 =1y c x1 c ˆβ 0 xp c + ˆβ 1 x1 c xc p ˆβ p p) =1 =1 =1(x c 2 = em que x c j = (a j + b j )/2 e y c = (y f 1,2,..., p e y, respectvamete.. y c =1 y c x c p, (2.21) + y sup )/2 são os potos médos dos tervalos x j, j = A estmatva de mímos quadrados dos parâmetros β, que mmza a soma dos quadrados dos erros (Equação 2.20) para este método, é a solução do sstema de p + 1 equações ormas. Em otação matrcal, a expressão resulta em: ˆβ = (A) 1 b, (2.22) a qual A é uma matrz (p + 1) (p + 1) e b é um vetor (p + 1) 1, dados por: A= x1 c... xp c x1 c (x1 c )2... xp c xc e b = ( y c, y c x ). xc p x1 c xc p... (xp c )2

31 2.3 REGRESSÃO LINEAR SIMBÓLICA 19 Ao aplcar o modelo para predzer Y a partr de um coceto w, descrto por z = (x,y), em que x = (x 1,x 2,...,x p ) com x j = [a j : b j ],( j = 1,2,..., p), teremos os valores dos lmtes do tervalo relatvo à varável resposta y dados por: ŷ = [ŷ f : ŷ sup ], ŷ f = (x f ) T ˆβ e ŷ sup = (x sup ) T ˆβ, (2.23) a qual, (x f ) T = (1,a 1,a 2,...,a p ), (x sup ) T = (1,b 1,b 2,...,b p ) e ˆβ = ( ˆβ 0, ˆβ 1,..., ˆβ p ) T. Covém ressaltar que os modelos de regressão para dados smbólcos do tpo tervalo podem ser aplcados para dados agregados e para dados orgalmete smbólcos. Para o caso de uso do modelo com dados agregados, uma boa sugestão é referecar o vetor de parâmetros ˆβ com o ídce relatvo ao coceto w que deu orgem aos dados smbólcos. Portato, o método do cetro para regressão lear smbólca cosste em ajustar um modelo de regressão lear aos potos médos das varáves smbólcas do tpo tervalo. Este método ão estabelece suposções de ormaldade para costrução de tervalos de cofaça ou testes de hpóteses e ão garate que ŷ f ŷ sup Método dos mímos e máxmos Dferete do método do cetro descrto a Seção , o método dos mímos e máxmos ajusta dos modelos depedetes de regressão lear para os lmtes ferores e superores das varáves smbólcas. O crtéro a ser mmzado este método relacoa o somatóro dos quadrados com em relação aos valores dos lmtes ferores e superores sedo dado por: ((ε f =1 ) 2 + (ε sup ) 2 ) (2.24) Cosdere o cojuto de varáves X 1,X 2,...,X p como varáves regressoras relacoadas learmete com uma varável resposta Y através do modelo: y f y sup = β f 0 + β f = β sup 0 + β sup 1 a βp f 1 b βp sup a p + ε f, b p + ε sup. (2.25) A partr das Equações (2.24) e (2.25) pode-se deduzr a soma dos quadrados dos erros dos

32 2.3 REGRESSÃO LINEAR SIMBÓLICA 20 lmtes mímos e máxmos: =1 ( ) ε f 2 ( + ε sup) ) 2 = =1 =1(y f β f 0 β f 2 1 a 1... βp f a p + =1 ( y sup β sup 0 β sup 1 b 1... βp sup ) 2 b p. (2.26) Essa equação represeta a soma dos quadrados dos erros dos lmtes ferores e dos lmtes superores de forma depedete, cosderado, também, depedetes os vetores de parâmetros β utlzados para predção dos lmtes da varável resposta Ŷ. As equações ormas do método dos mímos e máxmos podem ser deduzdas dferecado a Equação (2.26) com respeto aos parâmetros β e gualado o resultado a zero para ecotrar os valores de β f 0,β f 1,...,βp f e β sup 0,β sup 1,...,βp sup. As equações ormas deste método são apresetadas a Equação (2.27): f f ˆβ 0 + ˆβ 1. ˆβ f 0 ˆβ f 0 =1 =1 a 1 + a p + =1 ˆβ f 1 ˆβ f 1 a =1 =1 ˆβ f p =1 (a 1 ) a 1 a p a p = ˆβ f p ˆβ f p =1 =1 =1 y f, a p a 1 = (a p ) 2 = =1 =1 y f a 1, y f a p, (2.27) sup ˆβ 0 + ˆβ sup 0 =1. ˆβ sup 0 =1 sup ˆβ 1 =1 b 1 + b p + b sup ˆβ 1 =1 sup ˆβ 1 =1 sup ˆβ p =1 (b 1 ) b 1 b p b p = ˆβ sup p =1 =1 sup ˆβ p =1 y sup, b p b 1 = (b p ) 2 = =1 =1 y sup b 1, y sup b p. (2.28) Os estmadores de mímos quadrados de β f 0,β f 1,...,βp f e β sup 0,β sup 1,...,βp sup que mmzam a Equação (2.26) podem ser escrtas em otação matrcal por:

33 2.3 REGRESSÃO LINEAR SIMBÓLICA 21 ( f f ˆβ = ˆβ 0, ˆβ 1,..., f sup sup ˆβ p, ˆβ 0, ˆβ 1,..., ) T sup ˆβ p = (A) 1 b, (2.29) em que A é uma matrz 2(p + 1) 2(p + 1) e b é um vetor 2(p + 1) 1, deotados por: a 1... a p a 1 (a 1 ) 2... a p a A = a p a 1 a p... (a p ) , b p b 1... b p b b 1 b p... (b p ) 2 ( e b = y f, y f a 1,..., y f a p, y sup ) T., y sup b 1,..., y sup b p Aplcado o modelo para predzer Y a partr de um coceto w, descrto por z = (x,y), a qual x = (x 1,x 2,...,x p ) com x j = [a j : b j ],( j = 1,2,..., p), os valores predtos dos lmtes ferores e superores ŷ = [ŷ f,ŷ sup ] da varável resposta Y são dados por: ŷ f = (x f ) T ˆβ f e ŷ sup = (x sup ) T ˆβ sup, (2.30) em que (x f ) T = (1,a 1,...,a p ),(x sup ) T = (1,b 1,...,b p ), ˆβ f f f = ( ˆβ 0, ˆβ 1,..., f ˆβ p ) T e ˆβ sup sup sup sup = ( ˆβ 0, ˆβ 1,..., ˆβ p ) T. Para o caso de uso do modelo com dados agregados, recomeda-se referecar o vetor de parâmetros ˆβ com o ídce relatvo ao coceto w que deu orgem aos dados smbólcos Método do cetro e da ampltude O método do cetro e da ampltude (rage) estabelece que o crtéro de mmzação para estmação dos parâmetros do modelo deve cosderar a soma dos quadrados dos erros relatvos aos potos médos e às ampltudes (rages) dos tervalos de modo depedete. A expectatva é de que com a clusão de formações das ampltudes dos tervalos haja uma melhora a predção do modelo. O ajuste dos lmtes ferores e superores da varável resposta é realzado através da aplcação do vetor de parâmetros ˆβ aos potos médos e ampltudes das varáves

34 2.3 REGRESSÃO LINEAR SIMBÓLICA 22 regressoras. Supoha E = {w 1,w 2,...,w }, um cojuto de cocetos smbólcos descrtos por p + 1 varáves smbólcas do tpo tervalo: {y,x 1,x 2,...,x p }. Sejam y c e x c j ( j = 1,2,..., p), varáves quattatvas relatvas aos potos médos dos tervalos das varáves smbólcas y e x j ( j = 1,2,..., p). Além dsso, cosdere y r e x r j ( j = 1,2,..., p) varáves quattatvas relacoadas com a semampltude dos tervalos das varáves smbólcas y e x j ( j = 1,2,..., p). Isto posto, sgfca que cada coceto w E( = 1,2,...,) (para o caso de dados agregados) também pode ser represetado por dos vetores c = (x c,yc ) e r = (x r,yr ), em que x c = (x c 1,...,xc p) e x r = (x r 1,...,x r p) com x c j = (a j + b j ), x r j = (b j a j ), 2 2 y c = (y f + y sup ) e y r = (ysup y f ). (2.31) 2 2 Cosdere y c e y r como varáves resposta e x c j e xr j ( j = 1,2,..., p) um cojuto de varáves regressoras relacoadas por: y c = β0 c + β 1 c xc β px c p c + ε c, y r = β0 r + β1x r 1 r βpx r p r + ε r. (2.32) Neste método, os vetores de parâmetros ˆβ = ( ˆβ c, ˆβ r ) são estmados de forma depedete para o poto médo e para a ampltude dos tervalos. Portato, a soma dos quadrados dos erros é dada por: =1 ( (ε c ) 2 + (ε r ) 2) = + =1 =1 ( y c β c 0 β c 1 xc 1... β c px c p) 2 ( y r β0 r β1x r 1 r... βpx r p r ) 2. (2.33) As equações ormas do método do cetro e da ampltude são obtdas a partr da dferecação da Equação (2.33) em relação a cada um dos parâmetros e gualado os resultados a zero. As

35 2.3 REGRESSÃO LINEAR SIMBÓLICA 23 equações ormas são dadas por: ˆβ c 0 + ˆβ c 1 ˆβ 0 c =1. ˆβ 0 c =1 =1 x c 1 + ˆβ c 1 x c p + ˆβ c 1 x c ˆβ c p =1 =1 =1 x c p = =1 y c, (x1 c ) ˆβ p c px =1x c 1 c = y c x1 c, =1 x c 1 xc p ˆβ c p =1 (x c p) 2 = =1 y c x c p, (2.34) ˆβ r 0 + ˆβ r 1 ˆβ 0 r =1. ˆβ 0 r =1 =1 x r 1 + ˆβ r 1 x r p + ˆβ r 1 x r ˆβ r p =1 =1 =1 x r p = (x r 1) ˆβ r p x r 1x r p ˆβ r p =1 =1 =1 y r, x r px r 1 = (x r p) 2 = =1 =1 y r x r 1, y r x r p. (2.35) Os estmadores de mímos quadrados de β c 0,β c 1,...,β c p e β r 0,β r 1,...,β r p que mmzam a Equação (2.34) podem ser escrtos em otação matrcal por: ( ˆβ = ˆβ c 0, ˆβ 1 c,..., ˆβ p, c ˆβ 0, r ˆβ 1,..., r ˆβ ) p r T = (A) 1 b, (2.36) em que A é uma matrz 2(p + 1) 2(p + 1) e b é um vetor 2(p + 1) 1, deotados por: x1 c... xp c x1 c (x1 c )2... x c p xc A = xp c x1 c xc p... (xp c ) xp r, x1 r... xp r xr x1 r xr p... (xp r )2 e b = ( y c, y c xc 1,..., y c xc p, y r, y r xr 1,..., y r xr p) T.

36 2.3 REGRESSÃO LINEAR SIMBÓLICA 24 Aplcado o método do cetro e ampltude para predzer y a partr de um coceto w, descrto por z = (x,y), c = (x c,y c ) e r = (x r,y r ), em que x = (x 1,x 2,...,x p ) com x j = [a j : b j ]( j = 1,2,..., p), x c = (x1 c,...,xc p) com x c j = (a j + b j )/2 e x r = (x1 r,...,xr p) com x r j = (b j a j )/2 ( j = 1,..., p). O valor y = [y f,y sup ] de y será predto a partr dos valores ŷ c e ŷ r, estmados de y c e y r, respectvamete, como mostrado a segur: ŷ f = ŷ c ŷ r e ŷ sup = ŷ c + ŷ r, (2.37) em que ŷ c = (x c ) T c ˆβ e ŷ r = (x r ) T ˆβ r, (x c ) T = (1,x1 c,...,xc p) e (x r ) T = (1,x1,...,x r r p), ˆβ c = ( ˆβ 0 c, ˆβ 1 c,..., ˆβ p) c T e ˆβ r = ( ˆβ 0, r ˆβ 1 r..., ˆβ p) r T Regressão smbólca com restrções Os dados smbólcos do tpo tervalo foram apresetados a Seção e defdos a Seção Esse tpo de dado smbólco é defdo por uma realzação smbólca ξ = [a : b], com {a,b} IR 1, a e b, varáves quattatvas, represetado, respectvamete, o lmte feror e o lmte superor de um tervalo, de modo que ecessaramete a codção (a b) deve ser satsfeta. Pode-se demostrar que, em algus ceáros, ão há garata de que os tervalos predtos pelos métodos apresetados esta seção cotemplem a defção dos dados smbólcos do tpo tervalo, por exemplo, matedo a estmatva do lmte feror do tervalo predto meor do que a estmatva do lmte superor deste tervalo para qualquer observação tervalar x. Algus métodos foram propostos para resolver esse problema [19]. A déa básca é mpor restrções quato aos valores estmados dos parâmetros dos modelos do método do cetro, método do cetro e ampltude e do método dos mímos e máxmos. O modelo estabelece uma relação lear etre a varável resposta e as varáves regressoras, mpodo restrções aos parâmetros do vetor β, da segute forma: y f y sup = β 0 + β 1 a β p a p + ε f = β 0 + β 1 b β p b p + ε sup (2.38) restrtos a β j 0, j = 0,1,..., p

37 2.4 COMENTÁRIOS FINAIS 25 A estmação dos parâmetros β do modelo com restrções segue os mesmos passos dos métodos smbólcos descrtos as seções aterores. Cotudo, o desempeho da predção dos métodos com restrção é feror ao desempeho dos métodos sem restrção. Isto deve-se à lmtação mposta pelas restrções ao espaço de possíves soluções para o vetor de parâmetros β. 2.4 Cometáros fas Nas prmeras seções deste capítulo apresetou-se um resumo sobre regressão lear para dados clásscos. Esse resumo fo julgado ecessáro para cotextualzar as defções dscutdas os modelos de regressão lear para dados smbólcos apresetados a partr da Seção 2.3. No resumo apresetado sobre regressão lear para dados clásscos, a dscussão sobre a estmação dos parâmetros do modelo lmtou-se a apresetar o caso dos mímos quadrados. Esse processo cosste em ecotrar um cojuto de parâmetros para o modelo dos dados que mmze a soma dos quadrados dos erros desse modelo. As estmatvas dos parâmetros são ão vesadas, cotudo são fortemete fluecadas pela preseça de observações dscrepates. Essa desvatagem é mportate porque os métodos de regressão smbólca até etão propostos e apresetados este capítulo utlzam os mímos quadrados como técca para estmação dos parâmetros do modelo. Por serem baseados os mímos quadrados, os três métodos de regressão lear smbólca apresetados têm baxo poto de ruptura. Os métodos smbólcos,também, ão propõem suposções de dstrbução de probabldades para o modelo dos erros. Além dsso, dado que um determado modelo fo ajustado a um cojuto de observações, verfcou-se que em algus casos o modelo podera predzer um tervalo para a varável resposta cujo lmte feror sera maor do que o lmte superor, volado a defção de dado smbólco do tpo tervalo. As restrções mpostas ao processo de estmação dos parâmetros para garatr β j 0 degrada a qualdade de predção do método.

38 CAPÍTULO 3 Detecção de Outlers em Dados Smbólcos Itervalares O Capítulo 2 deste trabalho apresetou os métodos mas recetes para regressão lear aplcada a dados smbólcos do tpo tervalo. Todos os métodos descrtos utlzam a técca dos mímos quadrados (OLS-Ordary Least Squares) para estmar o vetor de parâmetros ˆβ do modelo ajustado. Uma das vatages do emprego de OLS em regressão lear (para dados smbólcos ou clásscos) é torar computacoalmete smples o processo de estmação dos parâmetros do modelo, uma vez que as expressões para os estmadores têm forma fechada. Cotudo, a utlzação de OLS como técca para estmação dos parâmetros ão apreseta bos resultados quado os dados cotêm observações dscrepates (outlers) [4], sejam eles clásscos ou smbólcos. Portato, os métodos de regressão lear, com suporte em OLS, devem ser usados apeas quado ão houver stâcas com dscrepâcas sgfcatvas etre os dados. Para garatr a ausêca de outlers etre dados clásscos, váras téccas de detecção têm sdo utlzadas recetemete o cotexto de aálse de agrupametos (cluster aalyss)[32],[29],[28],[25], descoberta de cohecmeto e estmadores robustos. Cotudo, ão fo ecotrada a lteratura ehuma técca smlar para dados smbólcos. Este capítulo troduz uma metodologa para detecção de outlers para o cotexto de dados smbólcos do tpo tervalo sprada o algortmo Expectato/Maxmzato (EM). 3.1 Itrodução A detfcação de outlers pode ser útl como ferrameta de aálse do processo que está sedo vestgado. Outlers podem ser proveetes de falhas o método de obteção da formação (por exemplo erros de dgtação/extração dos dados, erros a trasmssão e armazeameto dos dados, etc.) ou, ada, podem dcar que o processo vestgado apreseta uma regão de operação cujos resultados, mesmo dvergetes daqueles esperados, são váldos e merecem ateção (como volumes atípcos das cheas e vazetes dos ros da Amazôa, dados proveetes dos campos de petróleo e gás a camada pré-sal o ltoral braslero, expermetos com 26

39 3.1 INTRODUÇÃO 27 observações de dferetes populações que foram serdas as amostras, etc.) Com os exemplos lstados, vê-se que outlers são bastate frequetes em dados reas. A ocorrêca de outlers é ada mas comum em ambetes evolvedo grades bases de dados como os relacoados com a Iteret e bases empresaras. Quato ao domío da Aálse de Dados Smbólcos (SDA - Symbolc Data Aalyss), o processo de geeralzação (descrto a Seção ) é o método mas usado para obteção de observações smbólcas a partr de bases clásscas. Nesse processo de extração de dados smbólcos podem ocorrer aomalas quado uma classe de dvíduos, descrtos por uma varável quattatva, é geeralzada por um tervalo cotedo pequeos e grades valores observados [20]. Uma possível abordagem para reduzr os outlers smbólcos o processo de geeralzação pode ser mplemetada com a utlzação de téccas de detecção/remoção dos valores extremos potuas a base orgal, ou seja, um pré-procesameto da base. Cotudo, essa abordagem está fora do cotexto dessa tese. Retorado ao problema dos outlers em regressão lear baseada em OLS, verfca-se que esse tpo de observação pode ocorrer em dversas crcustâcas a base de dados e pode estar relacoado tato à varável resposta como também às varáves explcatvas [7]. Além das observações atípcas (outlers) já troduzdas, são também classfcadas como observações aberrates os potos de alavaca (Leverage Pots) e os potos fluetes [21]. Os potos de alavaca são observações atípcas com respeto às varáves explcatvas, tedo forte mpacto a varabldade dos seus estmadores. Um poto é cosderado fluete se a sua preseça tem mpacto a reta de regressão. Algus potos fluetes podem ão ser percebdos o cojuto de dados por ão aparecerem os gráfcos de aálse de resíduos. Pode-se observar a lteratura que o modo mas comum para tratameto de observações atípcas é através da exclusão da observação do cojuto de dados. Etretato, o cotexto de SDA, remover uma observação smbólca mplcara a exclusão de um cojuto cosderável de observações, uma vez que tas observações são frequetemete obtdas através do processo de geeralzação de um cojuto de varáves quattatvas [15]. A Fgura 3.1 apreseta dferetes tpos de outlers. Todos os ceáros lustram a forte correlação exstete etre a maora das observações. Cotudo, algumas observações estão deslocadas do resto dos dados. As observações A1 e A2 são outlers o espaço da varável y porque os valores dos potos médos da varável resposta estão bastate afastados do restate dos dados. Esse tpo de observação também é chamado de outler resdual ou de regressão por ão ser mmamete colear à reta de regressão. As observações A2, A3 e A4 são outlers o espaço da varável x e, por sso, são também chamadas de potos de alavaca. Embora A3 seja um outler com respeto à varável x, essa observação ão é um outler resdual por estar

40 3.1 INTRODUÇÃO 28 exatamete sobre a reta de regressão lear. A observação A2 é um tervalo de alavaca e também um outler resdual. O tervalo A4 está detro dos lmtes dos valores da varável y mas é um outler resdual com respeto à varável x. Por sua vez, cosderam-se fluetes os tervalos que causam efeto desproporcoal a regressão. Fgura 3.1 Gráfco de espalhameto com dferetes tervalos outlers Motvação e justfcatva Um estmador robusto tem por objetvo ecotrar um ajuste acetável para a maor parte da base de dados e, a partr daí, determar, se for o caso, as observações dscrepates. Uma abordagem empírca para mesurar o quão dscrepate é uma observação cosste em atrbur pesos relatvos às observações mas dstates. Dessa forma, as observações serão aalsadas e, quato mas dscrepates elas forem (em relação ao restate da base), meor será o peso dado à observação o processo de estmação dos parâmetros do modelo. Cosderado essa abordagem de pesos relatvos para compreeder o método OLS, pode-se supor que todas as observações (outlers ou ão) recebem peso gual a 1 o processo de estmação. No Capítulo 4 serão apresetadas mas formações sobre o processo de estmação dos parâmetros do modelo baseado o peso relatvo. Um característca desejável e comum aos métodos para obteção de estmadores de regressão lear, robustos ou ão, clásscos ou smbólcos, é obter o modelo mas adequado aos dados com o meor custo computacoal. Esse objetvo é mportate porque, reduzdo as terações do processo, reduz-se também a propagação e extrapolação de mperfeções do modelo [7]. Este capítulo apreseta métodos efcazes para detecção de outlers o domío dos dados smbólcos do tpo tervalo. Esses métodos podem ser utlzados como ferrameta para tratameto prelmar de bases de dados smbólcos do tpo tervalo e, desde que a base ão

41 3.1 INTRODUÇÃO 29 apresete observações atípcas, os métodos baseados em OLS smbólco podem ser utlzados para ajustar modelos de regressão lear aos dados. A prcpal vatagem é a redução do custo computacoal (métodos baseados em OLS tem forma fechada e os métodos robustos são geralmete teratvos) e a smplcdade de mplemetação desses métodos. Caso a base smbólca apresete observações atípcas, etão o usuáro pode utlzar o método de regressão smétrca, que ameza a fluêca dos outlers o modelo, o qual será proposto o Capítulo Esboço das soluções Este capítulo propõe três abordages orgas para detecção de observações dscrepates o cotexto de SDA. A prmera abordagem é uma adaptação baseada o algortmo clássco Expectato-Maxmzato (EM) [22][23] para um cojuto de dados smbólcos do tpo tervalo cotedo outlers. Essa abordagem, aqu chamada de Método de cluster para dados Smbólcos do tpo tervalo baseado em Expectato-Maxmzato (MS-EM), é uma adaptação do algortmo EM de Mstura de Gaussaas (EM-MMG) para dados tervalares. A escolha por EM-MMG é motvada por um resultado da teora da estmação que afrma que uma mstura fta de gaussaas pode ser usada para aproxmar efetvamete outras fuções de desdade de probabldade [24]. A seguda abordagem é composta por duas soluções depedetes cuja característca comum é detfcar outlers através da classfcação dos resíduos de um modelo de regressão smbólca ajustado sobre dados smbólcos do tpo tervalo cotedo observações atípcas. O prmero método, baseado a medda dos resíduos de uma regressão lear smbólca, é chamado de Método dos Resíduos Smbólcos Padrozados (MRSP). Seu propósto é detfcar os outlers através da aplcação de um lmar ao cojuto de resíduos smbólcos; aqueles com magtude acma do lmar são dcados como potecas outlers. Esse método, usado como estmador de potecas outlers, tem baxo poto de ruptura, sto é, o método apreseta bom desempeho quado o percetual de outlers é pequeo, mas dca um grade úmero de falsos egatvos quado o percetual de outlers cresce. O segudo método cosdera um procedmeto teratvo de regressão smbólca de tal modo que em cada laço, a ésma observação seja retrada do cojuto de dados para o ajuste do modelo de regressão. Nesse método, chamado PRESS-RS ( PRedcto Error Sum of Squares) [4] para Resíduos Smbólcos, o modelo ajustado ão sofrerá fluêca caso essa observação retrada seja dscrepate. O cojuto de resíduos é calculado com o modelo ajustado e com todas as observações. Grades valores de resíduos dcam potecas outlers.

42 3.2 DETECÇÃO DE OUTLIERS INTERVALARES BASEADA EM ANÁLISE DE CLUSTER 30 A tercera abordagem é um método híbrdo que comba os resíduos de dados tervalares padrozados com o algortmo EM-MMG uvarado. A déa cosste em supor que o cojuto de resíduos é uma mstura de duas dstrbuções com parâmetros dsttos, uma delas sedo atrbuída aos resíduos gerados por observações atípcas. Essa últma solução tem poto de ruptura próxmo a 50%. A segur serão apresetados os detalhes dos métodos baseados em agrupametos e em resíduos. 3.2 Detecção de outlers tervalares baseada em aálse de cluster Váras téccas têm sdo propostas para estmação de parâmetros descohecdos em modelos de msturas de dstrbuções em algus casos, ão há forma fechada para o procedmeto de estmação desses parâmetros. Um dos métodos mas usados para a estmatva de parâmetros faltates em msturas de dstrbuções é o algortmo EM - Expectato Maxmzato. Esse método tem sdo usado como técca de agrupameto em váras aplcações, clusve como dcador de observações atípcas em bases de dados [25]-[27]. Essas característcas motvaram o desevolvmeto de um algortmo tpo EM para o cotexto de SDA Breve trodução do modelo para mstura de gaussaas (EM-MMG) O algortmo Expectato-Maxmzato [22] tem se torado uma ferrameta muto popular em aálse estatístca para estmação de parâmetros por máxma verossmlhaça a preseça de dados completos (faltates), podedo também ser usado como técca de agrupameto [28]. As vatages do EM são: smplcdade, establdade e robustez para dados rudosos. Além dsso, o EM tem propredades mportates como: admtr dados cotíuos e categórcos, e cada dvíduo ou objeto do cojuto de dados pode pertecer a dferetes grupos com dferetes probabldades. Em comparação ao tradcoal método de agrupametos K-médas [30], o EM é cosderado uma versão probablístca desse método, vsto que ambos admtem a exstêca de k grupos e tetam ecotrar os cetrodes dos agrupametos dos dados. O problema de agrupameto cosste em ecotrar um cojuto de grupos de tal maera que os elemetos detro de um grupo são mas smlares etre s do que os elemetos pertecetes a grupos dferetes. No agrupameto probablístco, o método de agrupameto pode ser vsto como um procedmeto para detfcar regões desas o cojuto de dados usado uma fução de probabldade. O modelo de msturas de dstrbuções é uma represetação de uma

43 3.2 DETECÇÃO DE OUTLIERS INTERVALARES BASEADA EM ANÁLISE DE CLUSTER 31 fução de probabldade cosstdo de dversos compoetes, cada compoete gerado um cluster. Dessa forma, o cojuto de dados passa a ser uma mstura de grupos e o problema cosste em detfcar os elemetos que costtuem cada cluster e ferr sobre os parâmetros da dstrbução de probabldade assumda para cada um deles. O EM é um método teratvo que ca com um cojuto de valores de partda para os parâmetros do modelo de mstura de k dstrbuções e aplca teratvamete dos procedmetos: Expectato (E-step) e o Maxmzato (M-step). No procedmeto E-step, as probabldades codcoas de cada elemeto do cojuto Ω pertecer ao c ésmo cluster (c = 1,2,...,k) são obtdas; o procedmeto M-step, as estmatvas de máxma verossmlhaça para os valores dos parâmetros são refadas de acordo com os resultados obtdos o procedmeto E-step. Como a verossmlhaça aumeta a cada teração, a covergêca do algortmo é atgda em um poto de parada específco [22]. Cotudo, o algortmo EM sofre muta fluêca dos valores cas dos parâmetros e esse fato pode coduzr o algortmo a covergr em um máxmo local (poto de sela) [31]. O algortmo EM também tem sdo empregado como ferrameta para tratameto de dados cotamados com outlers. Nas abordages vestgadas este capítulo, as observações são orgazadas em dos (k = 2) grupos dsttos. Após a covergêca do método, as observações regulares estarão em um grupo e os outlers em outro [28][32]. Essa abordagem cosdera que o cojuto completo de observações é composto por uma mstura de k = 2 dstrbuções gaussaas p-dmesoas multvaradas (EM-MMG). Obvamete os outlers podem ocorrer dstrbudamete em dversas regões, ada assm, o algortmo EM dcou alto potecal de agrupameto para as observações regulares. Sejam {x j } ( j = 1,..., p) um cojuto de p varáves quattatvas e Ω um cojuto de objetos dexados por = 1,...,. Cada objeto é descrto por um vetor de valores quattatvos x = (x 11,...,x p ) ( = 1,...,) coforme a tabela de dados clásscos a segur. Tabela 3.1 Tabela de dados com p varáves quattatvas x 1... x j... x p 1 x x 1 j... x p x 1... x j... x p x 1... x j... x p

44 3.2 DETECÇÃO DE OUTLIERS INTERVALARES BASEADA EM ANÁLISE DE CLUSTER 32 Sejam (C 1,...,C k ) uma partção em k classes, em que cada classe está relacoada a uma gaussaa, e θ c = (τ c, µ c e Σ c ) (c {1,...,k}) um vetor de parâmetros assocado a c ésma classe ode µ c é o vetor de médas, Σ c é o determate da matrz de varâcas e covarâcas e τ c é o coefcete da mstura (peso da mstura) que represeta a proporção do cluster c o cojuto de dados. A dstrbução Gaussaa p-dmesoal do cluster c (c = 1,...,k), parametrzada por µ c e Σ c, é especfcada por: Pr(x c) = 1 ( (2π) p Σ c exp 1 ) 2 (x µ c )T (Σ c ) 1 (x µ c ) (3.1) Cosderado k dstrbuções Gaussaas e os coefcetes da mstura τ c (c = 1,...,k), a fução de desdade de probabldade do modelo de mstura de dstrbuções é descrta como: Pr(x) = k τ c Pr(x c). (3.2) c=1 O valor esperado para a probabldade codcoal de uma observação x do cojuto Ω pertecer ao cluster c (c = 1,...,k) é dado por: Pr(c x) = τ cpr(x c) Pr(x) (3.3) Os valores cas para os parâmetros θ podem ser obtdos a partr de uma partção aleatóra ou por obteção de k protótpos aleatóros, segudo de uma etapa de alocação dos dvíduos às k classes de acordo com a dstâca míma computada. O passo E calcula a probabldade de cada dvíduo pertecer a cada classe através da Equação (3.3). No passo M, a fução de log-verossmlhaça para a Equação (3.1) é maxmzada em relação a θ para obter os valores θ t+1 atualzados [22]. Os passos E e M do algortmo são repetdos até que θ t+1 θ t seja sufcetemete pequeo. As Equações (3.4), (3.5) e (3.6) são utlzadas para calcular os valores maxmzados do vetor θ. Σ t+1 τ t+1 c = 1 =1 Pr(c x ), (3.4) µ t+1 c = =1 x Pr(c x ) =1 Pr(c x ), (3.5) c = =1 Pr(c x )(x µ t+1 c )(x µ t+1 c =1 Pr(c x ) ) T. (3.6)

45 3.2 DETECÇÃO DE OUTLIERS INTERVALARES BASEADA EM ANÁLISE DE CLUSTER 33 O procedmeto clássco do modelo de mstura de Gaussaas (EM-MMG) pode ser decomposto como descrto a segur: Data: Valores cas do vetor θ (τ 0 c, µ 0 c e Σ0 c) para cada cluster C c. Result: Após a covergêca, os valores deftvos do vetor θ. Icalzação: Determe os valores cas do vetor θ (τc 0, µ 0 c e Σ0 c) para cada cluster C c. whle ( θt θ t+1 θ t > ε) do E-step: Ecotre a probabldade de x pertecer a cada cluster c(c = 1,...,k) usado a Equação (3.3) M-step: for c 1 to k do Compute o vetor de parâmetros θ c de acordo com as Equações (3.4),(3.5) e (3.6) ed ed Algortmo 1: Procedmeto clássco do modelo de mstura de gaussaas (EM-MMG) Após a covergêca do algortmo, um agrupameto pode ser obtdo usado a segute regra de alocação: Para de 1 até, defa o cluster C c tal que: c = arg max c=1,...,k Pr(c x ) (3.7) Um método de cluster para dados smbólcos do tpo tervalo baseado em expectato-maxmzato (MS-EM) Neste trabalho, o método de cluster para dados smbólcos do tpo tervalo baseado em expectato - maxmzato (MS-EM) é proposto como um método efcaz para detecção de observações atípcas o cotexto de varáves smbólcas do tpo tervalo. Essa abordagem é uma adaptação do modelo de mstura de gaussaas EM-MMG [31] para o cotexto de aálse de dados smbólcas, especfcamete para o caso de varáves do tpo tervalo. Coforme essa descrção, o método MS-EM agrupa observações defdas por varáves smbólcas do tpo tervalo. Seja Ω um cojuto com objetos dexados por e descrtos por p varáves smbólcas do tpo tervalo dexadas por j. Uma varável tervalar X é defda de Ω em IR tal que para cada ω,x() = [a,b] I, em que I é o cojuto fechado de tervalos defdos em IR [33]. Cada objeto é represetado como um vetor de tervalos x = (x 1,...,xp j ), a qual x = [a j,bj ] I = {[a,b] : a,b IR,a b}. A Tabela 3.2 lustra uma base de dados do tpo tervalar {x j } p com lhas que represetam objetos e p coluas que represetam p varáves tervalares.

46 3.2 DETECÇÃO DE OUTLIERS INTERVALARES BASEADA EM ANÁLISE DE CLUSTER 34 Tabela 3.2 Tabela de dados com varáves smbólcas do tpo tervalo x 1... x j... x p 1 [a 1 1,b1 1 ]... [a j 1,bj 1 ]... [ap 1,bp 1 ] [a 1,b1 j ]... [a,bj ]... [ap,bp ] [a 1,b 1 ]... [a,b j ] j... [a,b p ] p Assm como o método clássco EM-MMG, o método MS-EM, proposto esse trabalho, apreseta uma etapa de calzação das estmatvas dos parâmetros do método e realza duas etapas teratvas até a covergêca, quado um crtéro de parada é satsfeto. A segur serão descrtas essas etapas. Sejam (C 1,...,C k ) uma partção em k classes e θ c = (τ c, µ c f, µ sup c e Σ c ) (c {1,...,k}) um vetor de parâmetros assocado à classe C c, sedo: µ f c e µ sup c são vetores de médas assocados aos valores dos lmtes ferores e superores dos tervalos, respectvamete, Σ c é a matrz de varâcas e covarâcas e τ c é o coefcete da mstura (peso da mstura) que represeta a fração do cluster C c o cojuto de dados Etapa de calzação de θ Selecoe k objetos dferetes (y 1,...,y k ) de Ω e assoce cada objeto de Ω a uma classe C c tal que c = argm c=1,...,k d(x,y c ) sedo d é a dstâca de Hausdorff padrozada [14] [34] etre os vetores de tervalos x e y c, em que y c é um represtate do cluster C c. Algumas meddas de proxmdade para dados tervalares têm sdo troduzdas a lteratura. A dstâca de Hausdorff fo escolhda emprcamete etre outras meddas de dssmlardade (Gowda- Dday, Normalzed Euclda, Icho-Yaguch), uma vez que cotrbuu para a covergêca do algortmo com um úmero meor de terações [35]. A dstâca de Hausdorff padrozada etre dos vetores de tervalos x e x h (,h {1,...,}) é especfcada por: sedo d(x,x h ) = p j=1 [ j Max[ a a j h, b j b j ] ] 2 H j 1/2, (3.8)

47 3.2 DETECÇÃO DE OUTLIERS INTERVALARES BASEADA EM ANÁLISE DE CLUSTER 35 H 2 j = =1 h=1 [ Max[ a j a j h, b j b j ] ] 2. (3.9) Os valores cas dos parâmetros são calculados usado cada um dos grupos formados, ou seja, os valores cas das médas dos compoetes são guas à méda smbólca tervalar amostral em cada um dos grupos C c com tamaho c. µ f c = (µ c 1, f,..., µ c p, f ) e µ sup c = (µ c 1,sup,..., µ c p,sup ), (3.10) com µ j, f c em que c é o tamaho da classe C c. = 1 c a j e µ c j,sup = 1 C c c b j, (3.11) C c Os valores cas das matrzes de covarâca dos compoetes são guas à covarâca smbólca tervalar amostral em cada um dos grupos, que é dada por: S c,11 S c,12... S c,1p. S c,21 S c,22... Σ c (c {1,...,k}) =....., (3.12)... S c,p S c,pp [ ] (a v µ c v, f )(a j µ c j, f ) + (b v µ v,sup c )(b j µ c j,sup )),v C c S c,v j =. (3.13) 2 c Falmete, as proporções cas (coefcetes da mstura) são guas à proporção de observações em cada grupo, coforme descrtos a segur. τ c = c (3.14) E-step Cohecdos os vetores de parâmetros θ c = (τ c, µ c f, µ sup c e Σ c ) (c {1,...,k}), a probabldade de cada objeto pertecer ao cluster C c é dada por: Pr(c x) = τ cpr(x c) k c=1 τ cpr(x c), (3.15)

48 3.2 DETECÇÃO DE OUTLIERS INTERVALARES BASEADA EM ANÁLISE DE CLUSTER 36 a qual Pr(x c) = exp 1 2 [( (x f µ f c ) T Σ 1 c ) ( µ c f ) + (2π) p Σ c ( x f (x sup µ sup c ) T Σ 1 c )] ( x sup µ sup c ), (3.16) sedo que x f = (a 1,...,ap ) e xsup = (b 1,...,bp ) M-step Os vetores de parâmetros θ c = (τ c, µ c f, µ sup c e Σ c ) (c {1,...,k}) são atualzados por: as quas A = (x f O algortmo µ f c = = x f = τ c = 1 Pr(c x) Pr(x c) Σ c = µ c f )(x f µ f =1 e Pr(c x), (3.17) µ sup c = = x sup Pr(c x) = Pr(x c), (3.18) Pr(c x) (A + B) c 2 c Pr(c x), (3.19) c ) T e B = (x sup µ sup c )(x sup µ sup c ) T O procedmeto do método de cluster para dados smbólcos do tpo tervalo baseado em expectato-maxmzato (MS-EM) é descrto a segur:

49 3.3 DETECÇÃO DE OUTLIERS INTERVALARES BASEADA EM ANÁLISE DE RESÍDUOS 37 Data: Valores cas do vetor θ (τ 0 c, µ 0 c e Σ0 c) para cada cluster C c. Result: Após a covergêca, os valores deftvos do vetor θ. Icalzação: Determe os valores cas do vetor θ (τc 0, µ 0 c e Σ0 c) para cada cluster C c. whle ( θt θ t+1 θ t > ε) do E-step: Ecotre a probabldade de x pertecer a cada cluster c(c = 1,...,k) usado a Equação (3.15) M-step: for c 1 to k do Compute o vetor de parâmetros θ c de acordo com as Equações (3.17),(3.18) e (3.19) ed ed Algortmo 2: Procedmeto do método de cluster para dados smbólcos do tpo tervalo (MS-EM) Após a covergêca do algortmo, um agrupameto pode ser obtdo usado a segute regra de alocação: Para de 1 até, defa o cluster C c tal que: c = arg max c=1,...,k Pr(c x ) (3.20) 3.3 Detecção de outlers tervalares baseada em aálse de resíduos No Capítulo 2, foram apresetados os modelos de regressão lear para dados clásscos e para o domío dos dados smbólcos. Nesta seção será utlzado o estudo dos resíduos como ferrameta para detfcação de observações atípcas, e este tpo de observação, por sua vez, pode afetar cosderavelmete o método dos mímos quadrados. A utlzação de téccas para detecção de outlers pode sugerr, a pror, a ecessdade de uso de métodos resstetes, a verfcação da exatdão do processo sedo vestgado (quado se tratar, por exemplo, de strumetos de medção) e ada a ecessdade de terveção dretamete os dados. No Capítulo 2, o resíduo clássco fo defdo por: e = y ŷ,( = 1,2,...,), (3.21) em que y é o valor observado e ŷ é o correspodete valor ajustado. Esse coceto é esteddo para o domío de SDA através de um resíduo combado que é

50 3.3 DETECÇÃO DE OUTLIERS INTERVALARES BASEADA EM ANÁLISE DE RESÍDUOS 38 dado por: e S = (ŷ f y f ) 2 + (ŷ sup 2 y sup ) 2. (3.22) É razoável cosderar que os resíduos são estretamete relacoados com o modelo dos erros ε, prcpalmete se os cosderarmos como desvos etre os dados observados e os valores ajustados, podedo, também, ser vstos como uma medda da varabldade a varável resposta ão explcada pelo modelo de regressão [7][8]. Desse modo, qualquer afastameto das suposções sobre os erros devera aparecer os resíduos. Por exemplo, a preseça de caudas mas pesadas, ou seja, a preseça de potecas outlers etre os dados. Por essa razão, este trabalho propõe adaptações de dos métodos clásscos baseados a aálse de resíduos como ferrametas para aalsar e dcar outlers o cotexto de SDA Método dos Resíduos Smbólcos Padrozados - MRSP Aalsado algumas propredades dos resíduos para dados clásscos, verfca-se que têm méda zero e a sua varâca (MS Res ) pode ser estmada por: MS Res = =1 (e ē) 2. (3.23) p Os resíduos têm ( p) graus de lberdade e são correlacoados, cotudo essa aproxmação ada é pertete pelo fato de ser relatvamete grade em relação ao úmero de parâmetros (p). Os resíduos padrozados são defdos por: d = e MSRes,( = 1,2,...,). (3.24) No cotexto de SDA, a varâca méda smbólca combada é dada por: MS S Res = 1 2 f (=1)(Ŷ Y f ) 2 + (=1) 2 p sup (Ŷ Y sup ) 2. (3.25) Usado a varâca méda smbólca combada MSRes S, os resíduos smbólcos padrozados podem ser defdos por: d S = es,( = 1,2,...,). (3.26) MSRes S

51 3.3 DETECÇÃO DE OUTLIERS INTERVALARES BASEADA EM ANÁLISE DE RESÍDUOS 39 Como o método clássco, os valores usuas de resíduos tervalares superores ao lmar = 3 dcam que as observações são potecas outlers tervalares. Esse método de estmação de potecas outlers tem como desvatagem o baxo poto de ruptura (breakdow pot) PRESS para Resíduos Smbólcos - PRESS-RS A segur será proposta uma adaptação do método PRESS para o cotexto de SDA, aqu deomada de método PRESS para Resíduos Smbólcos (PRESS-RS). O modelo PRESS PRedcto Error Sum of Squares recebe este ome devdo ao seu uso o cálculo da "soma dos quadrados dos erros de predção". Em [4] são apresetadas modfcações o algortmo para melhorar o desempeho deste método, como a ão reposção da observação cosderada como outler o cojuto de dados. Essa abordagem também tem por objetvo dcar potecas outlers através da aálse dos resíduos smbólcos do tpo tervalar computados a partr da Equação O procedmeto é apresetado o procedmeto a segur: 1. Faça = 1; 2. Retre a ésma observação do cojuto de dados smbólcos Ω; 3. Ajuste o modelo de regressão lear para dados smbólcos troduzdo em [18] para ( 1) observações restates; 4. Compute o resíduo e S para a ésma observação; 5. Se (e S lmar), declare a observação tervalar como um potecal outler; 6. Adcoe a ésma observação ao cojuto de dados smbólcos Ω; 7. Icremete ; 8. Se ( ), vá para o passo 2. Nesta solução, o valor predto de ŷ é calculado com um modelo ajustado sobre todas as observações exceto a ésma observação. Se a ésma observação y for realmete um outler e essa observação for retrada ates do ajuste, etão o modelo de regressão lear ão será fluecado por essa observação e o resíduo decorrete dela deverá ser relatvamete grade. Porém, se exstr um outler o cojuto de dados mas ão for a ésma observação, etão o modelo de regressão lear será fortemete fluecado pela observação outler e, por cosequêca dsso, o resíduo será meor do que o calculado para a observação outler. O algortmo é repetdo para cada observação ( = 1, 2,..., ).

52 3.4 MÉTODO HÍBRIDO PARA DETECÇÃO DE OUTLIERS INTERVALARES Método híbrdo para detecção de outlers tervalares Os estmadores para detecção de observações dscrepates cosderados os métodos MRSP e PRESS-RS têm baxo poto de ruptura (breakdow pot), ou seja, ão apresetam bom desempeho quado o úmero de outlers cresce em relação ao úmero total de observações. Através da aálse dos expermetos com dados smulados e reas, verfcou-se que este fato está relacoado ao método de regressão smbólca baseado em mímos quadrados [36]. Essa defcêca dos métodos baseados em OLS motvou a aplcação do método clássco EM-MMG, apresetado a Seção 3.2.1, para os resíduos (Equação 3.22) de um modelo ajustado com regressão lear smbólca (método MRSP) baseada em OLS. Dessa forma, admte-se que os resíduos agrupados em um determado cluster são procedetes de observações ormas, cuja dstrbução tem parâmetros θ c=1, e os demas resíduos são orgáros de observações atípcas, cuja dstrbução tem parâmetros θ c=2. Nesse método, por smplcdade e sem perda efetva de desempeho, cosderam-se apeas dos grupos (k = 2). O procedmeto do método será apresetado a segur: 1. Ajuste um modelo de regressão smbólca para as observações do cojuto de dados smbólcos Ω; 2. Compute os resíduos smbólcos e S para todas as observações tervalares coforme Equação (3.22); 3. Aplque o método EM-MMG uvarado para o cojuto de resíduos smbólcos. Após a covergêca do algortmo EM-MMG, um agrupameto pode ser obtdo usado a segute regra de alocação: Para de 1 até, defa o cluster C c tal que: c = arg max c=1,...,k Pr(c x ). (3.27) 3.5 Expermetos com dados smbólcos do tpo tervalo smulados Para lustrar o potecal das téccas para detecção de outlers apresetadas este capítulo, foram realzados expermetos com dados smbólcos do tpo tervalo com dferetes cofgurações. Os ceáros de valdação utlzados esta seção cotemplam os quatro arrajos com observações smbólcas dscrepates apresetados a Fgura 3.1, tervalos A1 a A4.

53 3.5 EXPERIMENTOS COM DADOS SIMBÓLICOS DO TIPO INTERVALO SIMULADOS Dados smbólcos smulados do tpo tervalo O processo de geração dos dados smbólcos stétcos do tpo tervalo mas utlzado em smulações de modelos de regressão lear ca a partr de um cojuto de dados orudos de uma certa dstrbução. A dstrbução uforme é ormalmete a mas utlzada. Nesse tpo de processo de geração, cada poto desse cojuto é um "cetro"para um determado hpercubo (dado smbólco tervalar o IR p ). A partr desse "cetro"são gerados valores, também uformes, que correspodem ao tervalo do hpercubo propramete dto. Esse procedmeto pode ser extrapolado para gerar hpercubos o IR p [18]. O método de geração de dados smbólcos do tpo tervalo utlzado este trabalho é dferete do modelo usualmete empregado em smulações com regressão lear smbólca. Os cetros e os tervalos são extraídos de modo depedete através de um procedmeto deomado este trabalho de processo gaussao. Um exemplo de aplcação do processo gaussao para geração de dados o IR 2 é descrto a segur. Os potos médos x c são gerados a partr de uma dstrbução uforme U [a,b] e seus valores são matdos em todos os ceáros costruídos a smulação. Os potos médos y c são relacoados com os potos x c através da equação de regressão yc = β 0+ β 1 x c +ε em que β 0,β 1 são forecdos a partr de uma dstrbução uforme [c,d], e o erro ε segue uma dstrbução ormal com méda µ ε e varâca σ 2 ε. Desse modo, os cetros dos hpercubos são os potos (x c,yc ) e os tervalos dos hpercubos são formados segudo o modelo: ([x c x r /2,x c + x r /2],[y c y r /2,y c + y r /2]), (3.28) o qual x r e yr são defdos a partr de um processo de geeralzação defdo a segur. Cosdere um cojuto de m potos em IR 2 segudo uma dstrbuções ormal bvarada de compoetes depedetes com os segutes parâmetros: sedo µ 1 = x c e µ 2 = y c. µ = [ µ1 µ 2 ] [ ] σ 2 0 e Σ = 0 σ 2, Sejam Q 11 e Q 13 o prmero e o tercero quarts da amostra assocada a varável 1 e Q 21 e Q 23 o prmero e o tercero quarts da amostra assocada a varável 2. Os valores para x r e y r são ampltudes terquartílcas especfcadas por:

54 3.5 EXPERIMENTOS COM DADOS SIMBÓLICOS DO TIPO INTERVALO SIMULADOS 42 x r = Q 13 Q 11, y r = Q 23 Q 21. (3.29) O processo gaussao, proposto esta tese, tem por objetvo gerar um cojuto de dados tervalares mas realístco, uma vez que umas das fotes de dados smbólcos surge a partr da agregação de observações (potos). Optou-se por gaussaa por ser uma dstrbução comumete utlzada. A utlzação desse processo para geração de ceáros de smulação com dados tervalares mostra-se como uma alteratva em relação aos ceáros exstetes a lteratura de SDA, uma vez que os dados tervalares esses ceáros são obtdos de dstrbução uforme. Cotudo, algus feômeos poderam ada ser melhor modelados com outras dstrbuções, partcularmete algumas assmétrcas, como a dstrbução gama. Essa dstrbução é parametrzada por θ e k, sedo respectvamete o parâmetro de escala e o parâmetro de forma. A Fgura 3.2 apreseta a fução desdade de probabldade para a dstrbução gama modelada a partr de dversos valores de θ e k. Fgura 3.2 Fução desdade de probabldade da dstrbução gama Costrudo ceáros com outlers Após a geração das froteras dos tervalos, os respectvos potos médos (x c,y c ) são atualzados e o próxmo passo é a costrução de hpercubos outlers. Aqu, um hpercubo é outler se o seu poto médo (x c,yc ) for sufcetemete dssmlar ou aberrate em relação ao restate dos hpercubos do cojuto. O efeto que um hpercubo outler pode causar o ajuste de modelos depede desse grau de dssmlardade.

55 3.5 EXPERIMENTOS COM DADOS SIMBÓLICOS DO TIPO INTERVALO SIMULADOS 43 Os hpercubos dscrepates são crados a partr do deslocameto dos seus potos médos (x c,yc )( = 1,...,). Icalmete os cojutos são ordeados pela varável depedete Y c. Em seguda, um grupo de m observações do cojuto ordeado é selecoado para ser deslocado do restate do cojuto de hpercubos (tervalos smbólcos o IR ). O valor de m correspode a um valor percetual do tamaho total () do cojuto de observações, ou seja, Tamaho(m ) {2%,6%,10%,20%}. Ao cotráro dos dados clásscos, para coverter em outlers as observações smbólcas do tpo tervalo, é ecessáro que o seu deslocameto seja mas acetuado em comparação com observações potuas clásscas. Tas observações são modfcadas em dscrepates por: x c = x c ± f ator x S X c ( = 1,...,m) ( f ator x = {0,5,10}) y c = y c ± f ator y S Y c ( = 1,...,m) ( f ator y = {0,10}) (3.30) as quas S Y c e S X c são, respectvamete, o desvo padrão smbólco de (y c 1,...,yc ) e o desvo padrão smbólco de (x1 c,...,xc ). O framework de expermetos deste trabalho cosdera as quatro cofgurações para hpercubos apresetados a Tabela 3.3. Tabela 3.3 Parâmetros de cofguração para geração de outlers Cofg. [a,b] [c,d] [µ ε,σ 2 ε ] σr 2 f ator x f ator y 1 [10, 40] [1, 10] 0, [10, 40] [1, 10] 0, [10, 40] [1, 10] 0, [10, 40] [1, 10] 0, As Fguras 3.3 mostram os cojutos de dados dos ceáros relatvos às cofgurações 1, 2, 3 e 4 da Tabela 3.3. Todos os ceáros apresetam forte correlação etre a maora dos hpercubos em IR 2. Cotudo, os outlers são arrajados de acordo com o fator correspodete em cada cofguração. Na Fgura 3.3(a), os outlers estão deslocados apeas em relação à coordeada y. Nas Fguras 3.3(b) e 3.3(c), os outlers estão deslocados em relação às coordeadas y e x. Falmete, a Fgura 3.3(d), os outlers foram deslocados em relação à coordeada x.

56 3.5 EXPERIMENTOS COM DADOS SIMBÓLICOS DO TIPO INTERVALO SIMULADOS 44 (a) Ceáro 1. (b) Ceáro 2. (c) Ceáro 3. (d) Ceáro 4. Fgura 3.3 Dados smbólcos cotamados de acordo com as cofgurações da Tabela Aálse de desempeho A prmera técca para detecção de observações dscrepates apresetada este trabalho (MS- EM) é baseada em téccas de cluster e emprega uma adaptação do algortmo EM para dados smbólcos do tpo tervalo cotamados com outlers (Seção 3.2.2). A seguda técca compreede duas propostas e é baseada a aálse de resíduos de um modelo de regressão lear ajustados sobre os mesmos ceáros. O método MRSP estabelece um lmar para os resíduos. As potecas observações outlers provavelmete terão resíduos maores do que este lmar. A solução segute chama-se PRESS-RS (Seção 3.3.2). Essa abordagem retra a ésma observação a cada teração para ajuste do modelo. Se a ésma observação for um outler, etão o modelo ajustado ão será fluecado por ela e, desse modo, os resíduos do modelo dcarão os prováves outlers. A acuráca dessas duas soluções é fortemete prejudcada com a preseça de múltplos outlers. A tercera técca é uma aplcação do modelo EM-MMG com os resíduos defdos pela abordagem smbólca para detfcação de potecas outlers etre as observações tervalares (Seção 3.4) Smulação Mote Carlo para o método MS-EM Um estudo de smulações Mote Carlo com os quatro cojutos de dados smbólcos gerados a partr das cofgurações da Tabela 3.3 fo desevolvdo para verfcar o desempeho do MS-EM

57 3.5 EXPERIMENTOS COM DADOS SIMBÓLICOS DO TIPO INTERVALO SIMULADOS 45 a preseça de outlers. A quatdade relatva de outlers em cada cojuto é modfcada em cada smulação de Mote Carlo, varado proporcoalmete a partr de 2%, 6%, 10% e 20% das observações. Os expermetos Mote Carlo executam 100 replcações sobre um cojuto de dados smbólcos com tamaho = 100 observações e p = 2 varáves. Icalmete, os valores para β 0 e β 1 são selecoados aleatoramete a partr de uma dstrbução uforme (β 0,β 1 U[1,10]). Nos expermetos com MS-EM, o cojuto de dados smbólcos do tpo tervalo é cosderado uma mstura de duas dstrbuções de dados smbólcos com parâmetros θ j = {π j, µ j,σ j ; j = 1,2}. Dessa forma, para cada replcação, o método MS-EM precsa de um vetor de parâmetros cas θ (0) j como etrada. Esses parâmetros cas são gerados de acordo com os algortmos descrtos a Seção O método MS-EM segue o algortmo descrto a Seção Cada teração do método é composta por dos passos: o passo-e e o passo-m. No passo-e os dados faltates, que este caso represetam o grupo ao qual pertece a ésma observação, são estmados a partr do cojuto de observações smbólcas e das estmatvas dos parâmetros cas através do valor esperado codcoal da fução de verossmlhaça. No passo-m, a fução de verossmlhaça é maxmzada sobre a suposção de que os dados faltates são cohecdos. A estmatva dos parâmetros obtda o passo-e é utlzada o lugar dos parâmetros reas. Os passos E e M são repetdos alteradamete até se verfcar o crtéro de parada do método. A covergêca acotece quado o algortmo atge um determado valor para θ (t). As Tabelas 3.4 e 3.5 apresetam um resumo do desempeho do MS-EM ao ser aplcado sobre os quatro ceáros propostos a Seção 3.1. Os expermetos foram realzados utlzado matrzes de covarâca Σ j completa e dagoal o vetor de parâmetros θ j = {τ j, µ j,σ j }. Pode ser verfcado o úmero médo das terações para que o método alcace a covergêca, de acordo com o crtéro de parada estabelecdo e utlzado o vetor de parâmetros cas da Seção O úmero médo de terações os expermetos, utlzado o processo de calzação descrto a Seção , varou de 2.59 a Vale ressaltar que o método MS-EM é sesível à calzação, o que pode justfcar que, o meor úmero de terações, ocorreu o por resultado. As tabelas também apresetam a taxa méda de acerto relatva ao úmero de outlers em cada cojuto de dados. Os resultados desses estudos demostram que o MS-EM é uma técca efcaz a detecção de grupos de outlers em todos os ceáros prevstos as smulações, depedetemete do úmero de outlers em cada cojuto de observações, alcaçado taxa méda de acerto maor que 90%. O por e o melhor resultado foram observados o ceáro 4, com 2% e 20% de cotamação, respectvamete. No por caso, houve detecção de 80% com matrzes de covarâca dagoal e o melhor resultado, houve quase 100% de detecção dos

58 3.5 EXPERIMENTOS COM DADOS SIMBÓLICOS DO TIPO INTERVALO SIMULADOS 46 outlers, com matrzes de covarâca completa. Tabela 3.4 Resultados do desempeho do MS-EM as smulações cosderado matrzes de covarâca completa e dagoal para os ceáros 1 e 2. Ceáro 1 Ceáro 2 Outlers Σ j dagoal Σ j completa Σ j dagoal Σ j completa Tx Acerto µ (Iter.) Tx Acerto µ (Iter.) Tx Acerto µ (Iter.) Tx Acerto µ (Iter.) 2% 89.32% % % % % 98.28% % % % % 97.22% % % % % 92.98% % % % 3.22 Tabela 3.5 Resultados do desempeho do MS-EM as smulações cosderado matrzes de covarâca completa e dagoal para os ceáros 3 e 4. Ceáro 3 Ceáro 4 Outlers Σ j dagoal Σ j completa Σ j dagoal Σ j completa Tx Acerto µ (Iter.) Tx Acerto µ (Iter.) Tx Acerto µ (Iter.) Tx Acerto µ (Iter.) 2% 89.08% % % % % 98.48% % % % % 98.52% % % % % 96.40% % % % Smulação Mote Carlo para aálse de resíduos Dferete do MS-EM, cuja técca para detfcar outlers é baseada em cluster, os resultados apresetados esta seção são baseados a aálse de resíduos do modelo de regressão lear smbólca sobre um cojuto de dados smbólcos do tpo tervalo coforme defdo a Seção 3.3. Essa abordagem baseada em resíduos é composta por três téccas depedetes: o método MRSP, o método PRESS-RS e o método EM-MMG uvarado aplcado sobre os resíduos smbólcos. Os expermetos para avalar os métodos baseados em aálse de resíduos smbólcos fzeram uso do mesmo framework de Mote Carlo defdo a Seção Cotudo, após a geração dos ceáros com outlers, um modelo de regressão lear smbólco é ajustado para os cojutos de dados e, a partr deles, os resíduos smbólcos são computados de acordo com cada um dos métodos defdos a Seção 3.3.

59 3.5 EXPERIMENTOS COM DADOS SIMBÓLICOS DO TIPO INTERVALO SIMULADOS 47 Icalmete, os expermetos com os métodos MRSP e o PRESS-RS serão dscutdos. O método MRSP detfca potecas outlers aplcado um valor lmar aos resíduos padrozados. Todos os resíduos smbólcos que ultrapassarem esse valor são detfcados como potecas outlers. O método PRESS-RS cosdera que se uma dada observação é um outler, etão o resíduo relacoado com essa observação devera ser bem maor do que os outros resíduos quado um modelo de regressão lear smbólco é ajustado sem essa observação. As Tabelas 3.6 e 3.7 apresetam um sumáro do desempeho de ambos os métodos. Como fo prevsto, a capacdade de detecção destes métodos é muto prejudcada com o aumeto do úmero de outlers presetes o cojuto de dados smbólcos. O método MRSP tem excelete desempeho em todos os ceáros quado o percetual de cotamação está em 2%. Quado o percetual de observações outlers etre os dados tervalares está etre 6% e 10%, o ível de detecção de outlers ca sgfcatvamete e, com 20% de outlers presetes a base de dados, ehum outler é detectado. O desempeho do método PRESS-RS quato à detecção de outlers fo um pouco feror ao método MRSP. Com 2% de outlers a base de dados, o desempeho fo bom, exceto o caso do ceáro 3, cuja preseça dos outlers a base ão modfca os parâmetros do modelo ajustado e cujos resíduos referetes a essas observações ão são dscrepates. Com 20% de cotamação da base de dados o resultado fo muto rum, ehuma observação outler fo detectada pelo método. Cosderado apeas os resultados prelmares dos dos métodos, o MRSP fo superor ao PRESS-SR a detecção de outlers e apresetou meor ocorrêca de falsos postvos as dcações de potecas outlers. Tabela 3.6 Resultados do desempeho do MRSP cosderado os resíduos de um ajuste de regressão lear para os dados smbólcos dos ceáros 1, 2, 3 e 4 Método dos Resíduos Smbólcos Padrozados (MRSP) Ceáro 1 Ceáro 2 Ceáro 3 Ceáro 4 Taxa de Acerto Taxa de Acerto Taxa de Acerto Taxa de Acerto Outler Regular Outler Regular Outler Regular Outler Regular 2% % % % % % % % % 6% % % 50.66% % 86.00% % 0.00% % 10% 1.20% % 15.60% % 25.00% % 0.00% % 20% 0.00% % 0.00% % 0.00% % 0.00% % Outlers O baxo poto de ruptura dos métodos MRSP e PRESS-RS motvou a aplcação do método EM-MMG uvarado para aálse dos resíduos smbólcos. Esperava-se que o EM-MMG uvarado obtvesse desempeho bem melhor do que os métodos MRSP e PRESS-RS cosderado os mesmos ceáros. Esse pesameto deva-se à suposção de que os resíduos de um modelo ajustado de uma regressão lear smbólca poderam ser aproxmados por uma mstura de dstrbuções gaussaas: uma dstrbução relatva ao grupo de resíduos proveetes de

60 3.6 DETECÇÃO DE OUTLIERS SIMBÓLICOS INTERVALARES EM DADOS REAIS 48 Tabela 3.7 Resultados do desempeho do PRESS-SR cosderado os resíduos de um ajuste de regressão lear para os dados smbólcos dos ceáros 1, 2, 3 e 4 Método PRESS para Resíduos Smbólcos Ceáro 1 Ceáro 2 Ceáro 3 Ceáro 4 Taxa de Acerto Taxa de Acerto Taxa de Acerto Taxa de Acerto Outler Regular Outler Regular Outler Regular Outler Regular 2% % % 92.00% % 0.00% % % % 6% % % 0.00% % 0.00% % 0.00% % 10% 0.00% % 0.00% % 0.00% % 0.00% % 20% 0.00% % 0.00% % 0.00% % 0.00% % Outlers outlers e a outra com os resíduos proveetes das observações regulares. Esses resultados foram cofrmados e estão relacoados a Tabela 3.8. Tabela 3.8 Resultados do desempeho do EM-MMG uvarado cosderado os resíduos de um ajuste de regressão lear para os dados smbólcos dos ceáros 1, 2, 3 e 4 Aálse dos resíduos com modelo de mstura de gaussaas uvarado Outlers Ceáro 1 Ceáro 2 Ceáro 3 Ceáro 4 Taxa de Acerto Taxa de Acerto Taxa de Acerto Taxa de Acerto Outler Regular Outler Regular Outler Regular Outler Regular 6% % % % 99.51% % 99.97% 76.00% 95.65% 10% % % 98.00% 97.28% % % 96.60% 85.64% 14% % % 96.85% 98.09% % % 87.71% 83.65% 20% % 99.97% 96.70% 96.55% % % 73.10% 66.97% Pela aálse dos resultados, a maora dos casos a taxa de acerto fo de 100% e o ceáro 4 ocorreram as taxa mas baxas de detecção, sedo a meor delas 73% com 20% de cotamação da base. Apesar de esse método ter alcaçado a maor taxa méda de acerto, percebe-se que, um ceáro com alta alavacagem (ceáro 4), o úmero de falsos postvos aumeta à medda que cresce o úmero de outlers. Esse fato pode também ser resultado da modelagem da smulação, uma vez que todos os outlers estão descolados em um grupo cocetrado (ver Fgura 3.3). 3.6 Detecção de outlers smbólcos tervalares em dados reas Esta seção dscute a aplcação dos métodos para detecção de outlers apresetados sobre um cojuto de dados smbólcos reas do tpo tervalo. As espéces de cogumelos da Tabela

61 3.6 DETECÇÃO DE OUTLIERS SIMBÓLICOS INTERVALARES EM DADOS REAIS fazem parte do gêero Amata da famíla Amataceae. Esses valores foram extraídos da base Fug of Calfora Speces Idex [37]. Essa mesma base de dados tem sdo amplamete utlzada como fote de dados smbólcos do tpo tervalo em város artgos e lvros sobre SDA [14]. Os dados smbólcos do tpo tervalo foram obtdos através do processo de agregação/geeralzação de cogumelos a partr de suas espéces [15]. Como exemplo, a largura do píleo (ome do "chapéu"do cogumelo) dos cogumelos da espéce Vagata tem valor etre os lmtes 5.50cm e 10.0cm, equato que o estpe (ome do "troco"do cogumelo) tem comprmeto etre 6.0cm e 13.0cm e largura etre 1,2cm e 2.0cm. Na Fgura 3.4, é possível observar que o poto médo y c e a ampltude do tervalo y r da espéce Muscara fazem com que essa espéce se destaque em relação às outras espéces do cojuto. Não é fácl defr que essa espéce é uma observação outler apeas através da aálse gráfca, mas as téccas apresetadas este capítulo foram útes a classfcação desse cojuto de observações smbólcas. (a) Píleo Estpe (comprmeto) (b) Píleo Estpe (largura) Fgura 3.4 Base de dados smbólca de cogumelos do gêero Amata O desempeho das abordages baseadas em aálse de resíduos fo bastate satsfatóro. Esses métodos ão apeas alcaçaram boas taxas de acerto a dcação da espéce Muscara como potecal outler, como também foram precsos pos ão apresetaram resultados falsos egatvos em falsos postvos. De modo semelhate, a abordagem baseada em cluster (MS-EM) fo aplcada ao cojuto Amata dcado as espéces Muscára, Ocreata e Pachycolea como sedo observações outlers. Os outros métodos empregados obtveram resultados equvaletes com o cojuto Amata. Outro aspecto mportate a aálse dos resultados dz respeto à capacdade de detecção de outlers quato à ampltude dos tervalos. Todos os métodos apresetados este capítulo são ovadores quato ao uso dos lmtes ferores e superores dos tervalos e quato ao uso de uma úca matrz de covarâca smbólca represetado as varabldades cojutas desses lmtes.

62 3.7 COMENTÁRIOS FINAIS 50 Tabela 3.9 Ampltude dos tervalos do píleo, comprmeto e espessura do estpe dos cogumelos do gêero Amata [37]. Amata Varáves Smbolcas Famíla Píleo Comprmeto Estpe Espessura Estpe Lae [ 8.0 : 25.0 ] [ 10.0 : 20.0 ] [ 1.5 : 4.0 ] Costrcta [ 6.0 : 12.0 ] [ 9.0 : 17.0 ] [ 1.0 : 2.0 ] Frachet [ 4.0 : 12.0 ] [ 5.0 : 15.0 ] [ 1.0 : 2.0 ] Novupta [ 5.0 : 14.0 ] [ 6.0 : 12.0 ] [ 1.5 : 3.5 ] Muscara [ 6.0 : 39.0 ] [ 7.0 : 16.0 ] [ 2.0 : 3.0 ] Ocreata [ 5.0 : 13.0 ] [ 10.0 : 22.0 ] [ 1.5 : 3.0 ] Pachycolea [ 8.0 : 18.0 ] [ 10.0 : 25.0 ] [ 1.0 : 3.0 ] Pathera [ 4.0 : 15.0 ] [ 7.0 : 11.0 ] [ 1.0 : 2.5 ] Phallodes [ 3.5 : 15.0 ] [ 4.0 : 18.0 ] [ 1.0 : 3.0 ] Protecta [ 4.0 : 14.0 ] [ 5.0 : 15.0 ] [ 1.0 : 3.0 ] Vagata [ 5.5 : 10.0 ] [ 6.0 : 13.0 ] [ 1.2 : 2.0 ] Velosa [ 5.0 : 11.0 ] [ 4.0 : 11.0 ] [ 1.0 : 2.5 ] Aprca [ 5.0 : 15.0 ] [ 3.3 : 9.1 ] [ 1.4 : 3.5 ] Bvolvata [ 7.0 : 10.0 ] [ 13.0 : 15.0 ] [ 1.6 : 2.5 ] Gemmata [ 3.0 : 11.0 ] [ 4.0 : 15.0 ] [ 0.5 : 2.0 ] Magverrucata [ 4.0 : 13.0 ] [ 7.0 : 11.5 ] [ 1.0 : 2.5 ] Smthaa [ 5.0 : 17.0 ] [ 6.0 : 18.0 ] [ 1.0 : 3.5 ] Coker [ 7.0 : 15.0 ] [ 10.0 : 20.0 ] [ 1.0 : 2.0 ] Porphyra [ 3.0 : 12.0 ] [ 5.0 : 18.0 ] [ 1.0 : 1.5 ] Slvcola [ 5.0 : 12.0 ] [ 6.0 : 10.0 ] [ 1.0 : 2.5 ] Calforca [ 6.0 : 7.0 ] [ 6.0 : 10.0 ] [ 0.6 : 0.8 ] Farosa [ 2.5 : 6.5 ] [ 3.0 : 6.5 ] [ 0.3 : 1.0 ] Brecko [ 4.0 : 9.0 ] [ 7.0 : 10.0 ] [ 0.9 : 2.0 ] 3.7 Cometáros fas Neste capítulo foram propostas ovas téccas para detecção de observações smbólcas do tpo tervalo. Essas téccas foram baseadas em aálse de cluster e em aálse de resíduos de um modelo ajustado para dados smbólcos do tpo tervalo através de regressão lear smbólca estedda do método clássco dos mímos quadrados. As téccas baseadas em aálse de resíduo (MRSP e PRESS-RS) detfcam os potecas outlers através da aplcação de um lmar aos valores dos resíduos. Estes métodos têm a desvatagem de terem baxo poto de ruptura uma vez que o método dos mímos quadrados sofre forte fluêca das observações atípcas. Cotudo, os expermetos com dados reas, os métodos apresetaram resultados satsfatóros quado aplcados ao cojuto de observações

63 3.7 COMENTÁRIOS FINAIS 51 de cogumelos do gêero Amata, base com observações tervalares com forte correlação. Nos expermetos com dados smulados, pode-se observar que a capacdade de dcação de potecas outlers apresetou degradação o desempeho à medda que o úmero percetual de outlers aumetava. A técca baseada em cluster (MS-EM) estedeu o algortmo Expectato-Maxmzato para o cotexto de Aálse de Dados Smbólcos Itervalares ão apeas como ferrameta de classfcação, mas também como método para detfcação de observações atípcas, supodo que o cojuto de dados smbólcos é gerado a partr de uma mstura de dstrbuções gaussaas. Uma abordagem híbrda fo proposta utlzado o método EM-MMG uvarado sobre o cojuto de resíduos smbólcos padrozados resultado em excelete performace a detecção de outlers. Expermetos com dados smbólcos smulados e reas foram realzados. Os expermetos smularam város ceáros com ocorrêca de observações atípcas. Um ovo método para geração de dados smbólcos tervalares fo proposto. Esse método é semelhate ao processo de obteção de dados smbólcos a partr de fotes clásscas como baco de dados relacoas.

64 CAPÍTULO 4 Regressão Smétrca para Dados Smbólcos do Tpo Itervalo 4.1 Itrodução Este capítulo propõe um ovo modelo de predção para dados smbólcos do tpo tervalo baseado a aálse de regressão lear smétrca. Duas ovas característcas estão relacoadas este trabalho: os estmadores dos parâmetros do modelo de ajuste dos valores predtos dos lmtes ferores e superores da varável resposta são meos suscetíves à preseça de observações dscrepates os dados; além dsso, são estabelecdas suposções probablístcas para os erros do modelo. Em resumo, o método smétrco proposto ajusta dos modelos depedetes de regressão lear smétrca sobre os potos médos (cetro) e ampltudes (rages) dos tervalos assumdos pelas varáves o cojuto de treameto. O modelo de regressão proposto permte cosderar dstrbuções de cauda pesada e de cauda leve para os erros, como a dstrbução t-studet ou qualquer outra famíla de dstrbuções smétrcas [38]. 4.2 Motvação Na Aálse de Dados Smbólcos (SDA-Symbolc Data Aalyss), o problema de regressão lear em dados smbólcos do tpo tervalo vem sedo abordado de váras formas coforme descrto a Seção 2.3. A prmera abordagem para esteder o modelo de regressão lear clássco (MRLC) para dados smbólcos tervalares cossta o ajuste dos mímos quadrados para os potos médos dos dados tervalares assumdos pelas varáves tervalares [2]. Em seguda, outra abordagem fo proposta para ajustar dos MRLC depedetes sobre os lmtes ferores e superores dos tervalos [39]. Recetemete fo proposto o método dos cetros e da ampltude que cosdera ajustar o MRLC para os potos médos e para as ampltudes dos tervalos das varáves tervalares. Segudo os autores, esse método aprmorou a qualdade dos tervalos predtos em comparação com os métodos de cetro e mímos e máxmos. Embora 52

65 4.2 MOTIVAÇÃO 53 esses trabalhos recetes propodo modelos de regressão para dados smbólcos represetem um avaço em SDA, ada exstem potos de pesqusa para serem vestgados. Por exemplo, esses modelos ctados aterormete ão cosderam ehuma suposção probablístca para modelar os erros e ão tratam cojutos de dados tervalares cotamados com observações dscrepates (outlers). As estmatvas de mímos quadrados são bastate afetadas a preseça de outlers etre os dados. O modelo de regressão baseado em mímos quadrados ajustado para os dados é movdo a dreção dessas observações atípcas, aumetado com sso a varâca dos coefcetes estmados. Dessa forma, algus aalstas preferem descartar essas observações ates de estmar a reta que melhor ajusta os dados vestgados. Em um cojuto de dados clásscos, os outlers podem ser terpretados como dados proveetes de algum erro. Cotudo, um pequeo úmero de outlers pode ão ter sdo gerado por processos errados ou por erros de medção. Essas observações atípcas podem coter formação valosa sobre o processo que está sedo aalsado e por sso ão devem ser removdos. Esse detalhe é ada mas mportate o caso de cojutos de dados smbólcos o qual uma úca realzação tervalar de coceto pode represetar a agregação de um exteso cojuto de meddas (ver Seção ). Em SDA, o processo de agregação de dados é uma das prcpas fotes de observações atípcas em dados smbólcos do tpo tervalo. Em sítese, as descrções (cocetos) smbólcas são modeladas por um processo de geeralzação aplcado a um cojuto de dvíduos. Pode ocorrer supergeeralzação quado esses valores quattatvos são atípcos ou quado o cojuto de dvíduos a ser geeralzado é composto de subcojutos de dferetes dstrbuções, este caso podem surgr tervalos atípcos [1] [40]. Nesse cotexto, são ecessáros métodos resstetes para estmação dos parâmetros de regressão lear smbólca cujos procedmetos mmzem o efeto de observações atípcas em dados de atureza tervalar. Algus métodos foram propostos para resolver as desvatages de se utlzar o método dos mímos quadrados quado o cojuto de dados cotém observações atípcas [41]. Métodos robustos para dados clásscos têm sdo utlzados para reduzr o efeto das observações que fluecam fortemete o modelo de regressão lear. Os procedmetos robustos também geram grades resíduos quado as observações são outlers, torado mas fácl a detfcação desses potos de fluêca [7]. Outra abordagem para estmação robusta de modelos de regressão é a substtução da dstrbução ormal por uma dstrbução de cauda mas pesada, como a t-studet. Neste trabalho será adotada uma abordagem paramétrca para estmação dos parâmetros do modelo, descrta a Seção 4.3. As cotrbuções mas mportates deste capítulo são propor um método de regressão lear

66 4.3 REGRESSÃO LINEAR SIMÉTRICA 54 para predção meos sesível à preseça de dados tervalares outlers e propor uma abordagem paramétrca, permtdo com sso a costrução de tervalos de cofaça e testes de hpóteses. 4.3 Regressão lear smétrca Como mecoado aterormete, a preseça de dados outlers causa um mpacto as estmatvas do modelo de regressão. Um caso prátco é aquele em que os erros do modelo seguem uma dstrbução que tem caudas mas pesadas que a dstrbução ormal. Esses erros são uma evdêca de preseça de outlers etre os dados e dstrbuções de cauda pesada acomodam melhor a ocorrêca desse tpo de observação [4]. Essa seção apreseta um modelo de regressão lear smétrco (MRLS) cujos parâmetros estmados são meos suscetíves à preseça de outlers quado uma dstrbução de cauda pesada é utlzada. A suposção de uma dstrbução de probabldade para os erros permte ao modelo a aplcação de testes de hpótese e outras téccas de ferêca estatístca. A aplcação de modelos smétrcos para dados clásscos tem sdo amplamete dscutda. Em [42] foram troduzdos métodos de dagóstco baseados em fluêca local para modelos leares smétrcos e em [43] fo dscutda a extesão dos métodos de dagóstco para modelos ão-leares. Uma defção para resíduos para a classe de modelos smétrcos ão-leares fo proposta em [44]. O modelo smétrco para regressão lear clássco é apresetado a segur. por: Supoha y 1,...,y como varáves aleatóras depedetes, cuja fução desdade é dada f y (y) = 1 φ g { (y µ ) 2 φ }, y IR, (4.1) com µ IR e φ > 0 sedo os parâmetros de locação e escala (dspersão), respectvamete. A fução g : IR [0, ) é tal que 0 u 1/2 g(u)du = 1. Esta codção é ecessára para que f y (y) seja uma fução desdade de probabldade. Essa fução é tpcamete cohecda como geradora de desdade e é deotada por y S(µ,φ,g). A partr dessas defções, o MRLS pode ser defdo como: y = µ + ε, = 1,...,, (4.2) sedo µ = x T β, β = (β 0,...,β p ) T é um vetor de parâmetros descohecdo, ε S(0,φ,g) e x é o vetor de varáves explcatvas. Quado elas exstem, E(y ) = µ e Var(y ) = ξ φ, em que ξ > 0 é uma costate que depede da dstrbução (veja, por exemplo, [45]). Essa classe de modelos

67 4.4 REGRESSÃO LINEAR SIMÉTRICA PARA DADOS SIMBÓLICOS 55 clu todas as dstrbuções cotíuas smétrcas, como a ormal, t-studet, logístca, etre ν ν 2, outras. Por exemplo, a dstrbução t-studet com ν graus de lberdade resulta em ξ = etão Var(Y ) = ν 2 ν φ e a dstrbução ormal ξ = 1, Var(Y ) = φ. Nesse modelo, os estmadores de máxma verossmlhaça dos parâmetros β e φ ão podem ser obtdos separadamete e ão exstem expressões de forma fechada para obtê-los. Algus procedmetos teratvos podem ser utlzados como o método de Newto-Raphso, o método BFGS (Broyde, Fletcher,Goldfarb, Shao) e o método escore de Fsher. O método escore de Fsher pode ser faclmete aplcado para obter ˆβe ˆφ. O processo para obter ˆβ pode ser terpretado como um tpo de mímos quadrados poderados. O processo teratvo para obter ˆβ e ˆφ tem a segute forma: β (m+1) = {X T D(v (m) )X} 1 X T D(v (m) )y. (4.3) e φ (m+1) = 1 {y Xβ}T D(v){y Xβ} (m = 0,1,2,...). (4.4) sedo em que D(v) = dag{υ 1,...,υ }, y = (y 1,...,y ) T, X = (x T 1,...,xT ) T e υ = 2W g (u ), W g (u) = g (u) g(u), g (u) = dg(u) du e u = (y µ ) 2 /φ. Para a dstrbução ormal os coefcetes estmados pelo método da máxma verossmlhaça têm expressões de forma fechada, porque v = 1,. Para a dstrbução t-studet com ν graus de lberdade, g(u) = c(1 + u/ν) (ν+1)/2,ν > 0 e u > 0 de modo que W g (u ) = (ν + 1)/2(ν + u ) e υ = (ν+1) (ν+u ),. Nesse caso, o peso atual υ (m) a Equação (4.3) é versamete proporcoal à dstâca etre o valor observado y e seu valor predto atual x T β (m), de modo que as observações outlers tedem a ter pesos pequeos o processo de estmação [46]. 4.4 Regressão lear smétrca para dados smbólcos Esta seção troduz o método de predção para dados tervalares baseado a regressão lear smétrca (MRLS-DI), Método de Regressão Lear Smétrca para Dados Smbólcos Itervalares, cuja prcpal característca é ser meos suscetível à preseça de dados tervalares

68 4.4 REGRESSÃO LINEAR SIMÉTRICA PARA DADOS SIMBÓLICOS 56 atípcos. Nesse cotexto, um dado smbólco tervalar é represetado por um par de observações depedetes (cetro e ampltude) obtdos a partr dos lmtes ferores e superores do tervalo, de acordo com as Equações 2.31, e um dado smbólco do tpo tervalo é classfcado como atípco se o seu respectvo poto médo (cetro) está sesvelmete deslocado do restate das observações e/ou a ampltude do tervalo é desproporcoal às ampltudes dos outros tervalos do cojuto. Cosderado estas característcas do cojuto de dados smbólcos, dos modelos de regressão lear smétrca são ajustados: um modelo sobre os potos médos (cetro), adotado a dstrbução t-studet para modelar os erros, e um modelo sobre as ampltudes dos valores tervalares, adotado a dstrbução ormal para modelar os erros supostos pelas varáves o cojuto de treameto. Seja Ω = 1,..., um cojuto de dados de objetos smbólcos do tpo tervalo, descrtos pela varável resposta y = (y 1,...,y,...,y ) T e p varáves tervalares regressoras x 1,...,x p com X j = (x 1 j,...,x j,...,x j ) T. Cada objeto de Ω é represetado como (x,y ), o qual x = (x 1,...,x p ) T com x j = [x f j,x sup j ] I = {[a,b] : a,b IR,a b} e y = [y f,y sup ] I. I represeta o domío das varáves do tpo tervalo. Nesse método, um tervalo é represetado por duas varáves depedetes que descrevem o poto médo (cetro) e a ampltude desse tervalo. Sejam Y c = (y c 1,...,yc,...,yc ) T e y r = (y r 1,...,yr,...,yr ) T os potos médos (cetro) e as ampltudes relacoadas à varável depedete tervalar y. Sejam X c j = (xc 1 j,...,xc j,...,xc j )T e X r j = (x r 1 j,...,xr j,...,xr j )T os potos médos (cetro) e a ampltude, respectvamete, relacoados à varável regressora tervalar X j ( j = 1,..., p). Cada objeto ( = 1,...,) de Ω é represetado por dos vetores (x c,yc ) T com x c = (xc 1,...,xc p )T e (x r,yr )T com x r = (xr 1,...,xr p )T sedo y c = (y f + y sup )/2 e x c j = (x f j + x sup j )/2, e x r j = x sup j y r = y sup y f Defção de dado smbólco tervalar outler x f j. (4.5) Uma observação smbólca tervalar (y, x), de um cojuto smbólco Ω, é cosderada um outler o cojuto de dados smbólcos se os seus potos médos (cetro) estão a uma dstâca aormal dos potos médos das outras observações e/ou suas ampltudes são desproporcoas às ampltudes das outras observações de uma amostra da população, coforme defdo o Capítulo 3. Os métodos empregados esta tese cosderam apeas os dados smbólcos outlers com respeto ao deslocameto do cetro dos tervalos, comum a todos os métodos propostos a lteratura até o mometo.

69 4.5 EXPERIMENTOS COM DADOS INTERVALARES SIMULADOS 57 Equações de regressão Sejam z c = (1,x c )T e z r = (1,xr )T. O método Regressão Lear Smétrca Smbólca para Dados Itervalares (RLSS-DI) é defdo de acordo com duas equações depedetes de regressão: y c = (z c ) T β c + ε c e y r = (z r ) T β r + ε r (4.6) sedo β c = (β c 0,...,β c p) o vetor de parâmetros descohecdos para o ajuste dos potos médos da varável resposta, ε c S(0,φ,g) e (z c )T ( = 1,...,) é o vetor das varáves regressoras relatvo aos seus respectvos potos médos (cetro); β r = (β r 0,...,β r p) é o vetor de parâmetros descohecdos para o ajuste da ampltude da varável resposta, ε r S(0,φ,g) e (z r )T ( = 1,...,) é o vetor das varáves regressoras relatvo às suas ampltudes. Os vetores de parâmetros β c e β r são estmados pelo método da máxma verossmlhaça assumdo dstrbuções smétrcas para os erros sobre os potos médos e ampltudes, de acordo com suas descrções a Seção 4.3. Neste trabalho, assummos a dstrbução t-studet para os erros relatvos ao ajuste dos potos médos dos tervalos e a dstrbução ormal para os erros relatvos ao ajuste das ampltudes dos tervalos. A predção dos lmtes ferores e superores do ésmo tervalo ŷ = [ŷ f,ŷ sup ] é baseada a predção de ŷ c ad ŷ r. Regra de predção Dado um ovo objeto e seu vetor de varáves tervalares regressoras x = (x 1,..., x p ) T, em que cada x j é um tervalo x j = [x f j,x sup j ]. Cosdere z c = (1,x c,...,xc p) T e z r = (1,x1 r,...,xr p) T os quas x c j = (x f j + x sup j )/2 e x r j = (xsup j ampltudes, respectvamete, do tervalo x j. O tervalo ŷ = [ŷ f,ŷ sup ] é obtdo da segute forma: x f j ) como valores de potos médos (cetro) e ŷ f = (z c ) T ˆβ c z r ˆβ r /2, ŷ sup = (z c ) T ˆβ c + z r ˆβ r /2. (4.7) 4.5 Expermetos com dados tervalares smulados Para demostrar a utldade da abordagem proposta este capítulo, foram realzados expermetos para ajustar modelos de regressão lear smétrca em cojutos de dados smbólcos tervalares smulados com dferetes graus de dfculdade.

70 4.5 EXPERIMENTOS COM DADOS INTERVALARES SIMULADOS Dados smbólcos do tpo tervalo smulados Icalmete, cojutos de dados tervalares smulados o IR 2 e IR 4 são gerados a partr de cojutos de dados quattatvos clásscos, de modo que cada poto pertecete a um cojuto de dados quattatvo é uma semete para um retâgulo o IR 2 ou um hpercubo o IR 4. Cada cojuto quattatvo padrão tem 375 potos como fo proposto em [18]. Cofgurações o IR 2 Com relação aos cojutos de dados o IR 2, os potos médos (cetros) e as ampltudes dos tervalos são smulados depedetemete, segudo dstrbuções uformes. Todas as varáves depedetes foram smuladas como amostras aleatóras. Os potos médos x c foram gerados a partr de uma dstrbução uforme [a, b] e seus valores permaecem fxados durate toda a smulação. Os potos médos y c são relacoados aos potos médos x c como y c = β 0 + β 1 x c + εc, sedo que β 0,β 1 são smulados através de uma dstrbução uforme [c,d] e ε c é smulado através de uma dstrbução uforme [e, f ]. Dessa forma, os cetros para os retâgulos o IR 2 são potos (x c,yc ) e esses retâgulos são formados da segute maera: a qual x r e yr Cofgurações o IR 4 ([ ] [ ]) (x c xr 2 ),(xc + xr 2 ), (y c yr 2 ),(yc + yr 2 ), (4.8) são gerados a partr de dstrbuções uformes [g,h]. Com respeto aos cojutos de dados o IR 4, da mesma forma da geração dos potos médos o IR 2, os potos médos (x1 c,xc 2,xc 3 ) são smulados a partr de uma dstrbução uforme [a,b]. Os potos médos (cetros) y c estão relacoados aos potos médos (x1 c,xc 2,xc 3 ) por yc = β 0 + β 1 x c 1 + β 2x c 2 + β 3x c 3 + εc em que β 0,β 1,β 2,β 3 são smulados através de uma dstrbução uforme [c,d] e ε c é smulado através de uma dstrbução uforme [e, f ]. Os cetros dos retâgulos o IR 4 são os potos (x1 c,xc 2,xc 3,yc ) e esses retâgulos são formados da segute maera: [(x1 c (xr 1/2)),(x1 c + (xr 1/2))],[(x2 c (xr 2/2)),(x2 c + (xr 2/2))], [(x3 c (xr 3/2)),(x3 c + (xr 3/2))],[(y c (y r /2)),(y c + (y r /2))] (4.9) os quas x1 r,xr 2,xr 3 e yr são gerados segudo uma dstrbução uforme [g,h]. Quatro dferetes cofgurações para os hpercubos o IR 2 e IR 4 são cosderadas. Esses hpercubos são smulados de acordo com os parâmetros das dstrbuções uformes apresetadas

71 4.5 EXPERIMENTOS COM DADOS INTERVALARES SIMULADOS 59 a Tabela 4.1. Tabela 4.1 Parâmetros de cofguração para os hpercubos o IR 2 e IR 4. Cofg. [a,b] [c,d] [e,f] [g,h] 1 [20, 40] [20, 40] [ 20, 20] [20, 40] 2 [20, 40] [20, 40] [ 5, 5] [20, 40] 3 [20, 40] [1, 5] [ 20, 20] [1, 5] 4 [20, 40] [1, 5] [ 5, 5] [1, 5] Para os cojutos de dados tervalares smulados deste capítulo, um retâgulo é cosderado um outler se a coordeada de seu poto médo (cetro) y c é remota o cojuto de retâgulos represetados pelos potos médos y c. O efeto que esse retâgulo causa o modelo de regressão depede da coordeada x de seu poto médo e da dsposção geral dos outros retâgulos o cojuto de dados. Não foram cosderados tervalos de alavaca os expermetos. Dados tervalares outlers são crados baseados os dados do cojuto de potos médos (y c, xc ) ( = 1,...,). Icalmete, os cojutos o IR2 e IR 4 são ordeados de modo crescete pela varável depedete Y c e um pequeo cluster cotedo m tervalos é selecoado do cojuto de dados ordeado (y c,xc ). As observações desse cluster são trasformadas em tervalos outler por: y c = y c 3 S Y c ( = 1,...,m), (4.10) em que S Y c é o desvo padrão smbólco de (y c 1,...,yc ) [14]. A Fgura 4.1 mostra represetates dos cojutos de dados tervalares 1, 2, 3 e 4. As Fguras 4.1(a) e 4.1(b) descrevem alta varabldade as ampltudes dos retâgulos. As Fguras 4.1(c) e 4.1(d) mostram baxa varabldade sobre as ampltudes dos retâgulos Aálse de desempeho Smulações de Mote Carlo com os 4 cojutos de dados tervalares smulados o IR 2 e o IR 4 foram desevolvdas para avalar o desempeho do modelo proposto este capítulo o ajuste de dados tervalares cotamados com observações smbólcas outlers. Além dsso, o MRLS- DI é comparado com o modelo de regressão lear para dados tervalares troduzdo em [18], aqu chamado de LR-IVD (Lear Regresso model to symbolc Iterval-Valued Data). Icalmete, valores para β 0,β 1 o IR 2 e β 0,β 1,β 2,β 3 o IR 4 são selecoados aleatoramete da dstrbução uforme U[ 10, 10] e um expermeto de Mote Carlo com 100 repl-

72 4.5 EXPERIMENTOS COM DADOS INTERVALARES SIMULADOS 60 (a) Co juto 1. (b) Co juto 2. (c) Co juto 3. (d) Co juto 4. Fgura 4.1 Cojutos de dados tervalares 1, 2, 3 e 4 cotedo retâgulos outlers cações cosderado cada cojuto de dados o IR 2 e o IR 4 é realzado. Cojutos de teste e de treameto são selecoados aleatoramete de cada cojuto de dados tervalares smulado. O cojuto de treameto correspode a 75% do cojuto de dados orgal e o cojuto de dados de teste correspode a 25%. A medda de desempeho do método MRLS-DI proposto é baseada o Pooled Root Mea- Square Error (PRMSE). Essa medda é calculada para o cojuto de dados de treameto, PRMSE tr, e para o cojuto de dados de teste, PRMSE t, para cada sére de 100 replcações. A medda PRMSE para o cojuto de dados de treameto é dada por: a qual, error = PRMSE tr = [ (y f ŷ f =1 ˆυ error, (4.11) ) 2 + (y sup ŷ sup ) 2] (4.12) em que υ é o peso obtdo da regressão lear smétrca aplcada sobre os potos médos dos tervalos. Esses pesos dcam o grau de dspersão dos cetros do tervalo. A medda PRMSE t para o cojuto de dados de teste é dada por: PRMSE t = =1 error (4.13) Essas meddas são estmadas para cada cofguração fxa o IR 2 e o IR 4 dos cojutos de

Regressão Simples. Parte III: Coeficiente de determinação, regressão na origem e método de máxima verossimilhança

Regressão Simples. Parte III: Coeficiente de determinação, regressão na origem e método de máxima verossimilhança Regressão Smples Parte III: Coefcete de determação, regressão a orgem e método de máxma verossmlhaça Coefcete de determação Proporção da varabldade explcada pelo regressor. R Varação explcada Varação total

Leia mais

Econometria: 3 - Regressão Múltipla

Econometria: 3 - Regressão Múltipla Ecoometra: 3 - Regressão Múltpla Prof. Marcelo C. Mederos mcm@eco.puc-ro.br Prof. Marco A.F.H. Cavalcat cavalcat@pea.gov.br Potfíca Uversdade Católca do Ro de Jaero PUC-Ro Sumáro O modelo de regressão

Leia mais

Regressao Simples. Parte II: Anova, Estimação Intervalar e Predição

Regressao Simples. Parte II: Anova, Estimação Intervalar e Predição egressao Smples Parte II: Aova, Estmação Itervalar e Predção Aálse de Varâca Nem todos os valores das amostras estão cotdos a reta de regressão, e quato mas afastados estverem por, a reta represetará a

Leia mais

Modelo de Regressão Simples

Modelo de Regressão Simples Modelo de Regressão Smples Hstora Hstóra Termo regressão fo troduzdo por Fracs Galto (8-9). Estudo sobre altura de pas e flhos. Karl Pearso coletou mas de ml regstros e verfcou a le de regressão uversal

Leia mais

Em muitas situações duas ou mais variáveis estão relacionadas e surge então a necessidade de determinar a natureza deste relacionamento.

Em muitas situações duas ou mais variáveis estão relacionadas e surge então a necessidade de determinar a natureza deste relacionamento. Prof. Lorí Val, Dr. val@pucrs.r http://www.pucrs.r/famat/val/ Em mutas stuações duas ou mas varáves estão relacoadas e surge etão a ecessdade de determar a atureza deste relacoameto. A aálse de regressão

Leia mais

Estudo do intervalo de confiança da regressão inversa utilizando o software R

Estudo do intervalo de confiança da regressão inversa utilizando o software R Estudo do tervalo de cofaça da regressão versa utlzado o software R Llae Lopes Cordero João Domgos Scalo. Itrodução Na maora das aplcações evolvedo regressão, determa-se o valor de Y correspodete a um

Leia mais

Média. Mediana. Ponto Médio. Moda. Itabira MEDIDAS DE CENTRO. Prof. Msc. Emerson José de Paiva 1 BAC011 - ESTATÍSTICA. BAC Estatística

Média. Mediana. Ponto Médio. Moda. Itabira MEDIDAS DE CENTRO. Prof. Msc. Emerson José de Paiva 1 BAC011 - ESTATÍSTICA. BAC Estatística BAC 0 - Estatístca Uversdade Federal de Itajubá - Campus Itabra BAC0 - ESTATÍSTICA ESTATÍSTICA DESCRITIVA MEDIDAS DE CENTRO Méda Medda de cetro ecotrada pela somatóra de todos os valores de um cojuto,

Leia mais

REGRESSÃO LINEAR 05/10/2016 REPRESENTAÇAO MATRICIAL. Y i = X 1i + 2 X 2i k X ni + i Y = X + INTRODUÇÃO SIMPLES MÚLTIPLA

REGRESSÃO LINEAR 05/10/2016 REPRESENTAÇAO MATRICIAL. Y i = X 1i + 2 X 2i k X ni + i Y = X + INTRODUÇÃO SIMPLES MÚLTIPLA REGRESSÃO LINEAR CUIABÁ, MT 6/ INTRODUÇÃO Relação dos valores da varável depedete (varável resposta) aos valores de regressoras ou exógeas). SIMPLES MÚLTIPLA (varáves depedetes,... =,,, K=,,, k em que:

Leia mais

Cap. 5. Testes de Hipóteses

Cap. 5. Testes de Hipóteses Cap. 5. Testes de Hpóteses Neste capítulo será estudado o segudo problema da ferêca estatístca: o teste de hpóteses. Um teste de hpóteses cosste em verfcar, a partr das observações de uma amostra, se uma

Leia mais

7 Análise de covariância (ANCOVA)

7 Análise de covariância (ANCOVA) Plejameto de Expermetos II - Adlso dos Ajos 74 7 Aálse de covarâca (ANCOVA) 7.1 Itrodução Em algus expermetos, pode ser muto dfícl e até mpossível obter udades expermetas semelhtes. Por exemplo, pode-se

Leia mais

CAPÍTULO 3 MEDIDAS DE TENDÊNCIA CENTRAL E VARIABILIDADE PPGEP Medidas de Tendência Central Média Aritmética para Dados Agrupados

CAPÍTULO 3 MEDIDAS DE TENDÊNCIA CENTRAL E VARIABILIDADE PPGEP Medidas de Tendência Central Média Aritmética para Dados Agrupados 3.1. Meddas de Tedêca Cetral CAPÍTULO 3 MEDIDA DE TENDÊNCIA CENTRAL E VARIABILIDADE UFRG 1 Há váras meddas de tedêca cetral. Etre elas ctamos a méda artmétca, a medaa, a méda harmôca, etc. Cada uma dessas

Leia mais

Estatística - exestatmeddisper.doc 25/02/09

Estatística - exestatmeddisper.doc 25/02/09 Estatístca - exestatmeddsper.doc 5/0/09 Meddas de Dspersão Itrodução ão meddas estatístcas utlzadas para avalar o grau de varabldade, ou dspersão, dos valores em toro da méda. ervem para medr a represetatvdade

Leia mais

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou. experimental.

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou. experimental. É o grau de assocação etre duas ou mas varáves. Pode ser: correlacoal ou Prof. Lorí Val, Dr. val@mat.ufrgs.r http://www.mat.ufrgs.r/~val/ expermetal. Numa relação expermetal os valores de uma das varáves

Leia mais

Capítulo 5: Ajuste de curvas pelo método dos mínimos quadrados

Capítulo 5: Ajuste de curvas pelo método dos mínimos quadrados Capítulo : Ajuste de curvas pelo método dos mímos quadrados. agrama de dspersão No capítulo ateror estudamos uma forma de ldar com fuções matemátcas defdas por uma taela de valores. Frequetemete o etato

Leia mais

Macroeconometria Aula 3 Revisão de estatística e teste de hipótese

Macroeconometria Aula 3 Revisão de estatística e teste de hipótese Macroecoometra 008. Aula 3 Revsão de estatístca e teste de hpótese 3.5. Estmação No estudo das probabldades, o objetvo é calcular a probabldade de evetos préespecfcados. De agora em date o objetvo muda.

Leia mais

Tópicos Extras 2ª parte. Análise de Correlação e Regressão

Tópicos Extras 2ª parte. Análise de Correlação e Regressão Tópcos Extras ª parte Aálse de Correlação e Regressão 1 Defções báscas ANÁLISE DE CORRELAÇÃO Mesurar a força da assocação etre as varáves (geralmete através do cálculo de algum coefcete). ANÁLISE DE REGRESSÃO

Leia mais

Estudo das relações entre peso e altura de estudantes de estatística através da análise de regressão simples.

Estudo das relações entre peso e altura de estudantes de estatística através da análise de regressão simples. Estudo das relações etre peso e altura de estudates de estatístca através da aálse de regressão smples. Waessa Luaa de Brto COSTA 1, Adraa de Souza COSTA 1. Tago Almeda de OLIVEIRA 1 1 Departameto de Estatístca,

Leia mais

x n = n ESTATÍSTICA STICA DESCRITIVA Conjunto de dados: Organização; Amostra ou Resumo; Apresentação. População

x n = n ESTATÍSTICA STICA DESCRITIVA Conjunto de dados: Organização; Amostra ou Resumo; Apresentação. População ESTATÍSTICA STICA DESCRITIVA Prof. Lorí Val, Dr. val@mat.ufrgs.br http://.ufrgs.br/~val/ Orgazação; Resumo; Apresetação. Cojuto de dados: Amostra ou População Um cojuto de dados é resumdo de acordo com

Leia mais

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Estimação Pontual

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Estimação Pontual Estatístca: Aplcação ao Sesorameto Remoto SER 04 - ANO 08 Estmação Potual Camlo Daleles Reó camlo@dp.pe.br http://www.dp.pe.br/~camlo/estatstca/ Iferêca Estatístca Cosdere o expermeto: retram-se 3 bolas

Leia mais

Modelos de Regressão Linear Simples e Múltipla. Fabio Antonio Avilla (Matemática) Profª Dra. Carine Savalli Redígolo (Orientadora)

Modelos de Regressão Linear Simples e Múltipla. Fabio Antonio Avilla (Matemática) Profª Dra. Carine Savalli Redígolo (Orientadora) Modelos de Regressão Lear Smples e Múltpla Fabo Atoo Avlla (Matemátca) Profª Dra. Care Savall Redígolo (Oretadora) Resumo Dversas áreas do cohecmeto cetífco procuram valdar suas hpóteses por meo de pesqusas

Leia mais

Centro de Ciências Agrárias e Ambientais da UFBA Departamento de Engenharia Agrícola

Centro de Ciências Agrárias e Ambientais da UFBA Departamento de Engenharia Agrícola Cetro de Cêcas Agráras e Ambetas da UFBA Departameto de Egehara Agrícola Dscpla: AGR Boestatístca Professor: Celso Luz Borges de Olvera Assuto: Estatístca TEMA: Somatóro RESUMO E NOTAS DA AULA Nº 0 Seja

Leia mais

Organização; Resumo; Apresentação.

Organização; Resumo; Apresentação. Prof. Lorí Val, Dr. val@ufrgs.br http://www.ufrgs.br/~val/ Grade Cojutos de Dados Orgazação; Resumo; Apresetação. Amostra ou População Defetos em uma lha de produção Lascado Deseho Torto Deseho Torto Lascado

Leia mais

MEDIDAS DE TENDÊNCIA CENTRAL I

MEDIDAS DE TENDÊNCIA CENTRAL I Núcleo das Cêcas Bológcas e da Saúde Cursos de Bomedca, Ed. Físca, Efermagem, Farmáca, Fsoterapa, Fooaudologa, edca Veterára, uscoterapa, Odotologa, Pscologa EDIDAS DE TENDÊNCIA CENTRAL I 7 7. EDIDAS DE

Leia mais

Modelos de regressão linear: abordagem clássica

Modelos de regressão linear: abordagem clássica Modelos de regressão lear: abordagem clássca Prof. Marcelo Rubes mrubes@me.uerj.br Depto. Estatístca Aálse de Regressão Objetvo: Determar uma fução matemátca que descreva a relação etre uma varável cotíua

Leia mais

NOTAS DE AULA DA DISCIPLINA CE076. ], T 2 = conhecido como T 2 de Hotelling

NOTAS DE AULA DA DISCIPLINA CE076. ], T 2 = conhecido como T 2 de Hotelling 4 INFERÊNCIA SOBRE O VETOR DE MÉDIAS 4. TESTE PARA UM VETOR DE MÉDIAS µ Lembrado o caso uvarado: H : µ = µ H : µ µ Nível de sgfcâca: α Estatístca do teste: X µ t = s/ ~ t Decsão: se t > t - (α/) rejeta-se

Leia mais

50 Logo, Número de erros de impressão

50 Logo, Número de erros de impressão Capítulo 3 Problema. (a) Sedo o úmero médo de erros por pága, tem-se: 5 + + 3 + 3 + 4 33,66 5 5 Represetado o úmero medao de erros por md, tem-se, pela ordeação dos valores observados, que os valores de

Leia mais

ESTATÍSTICA APLICADA À ZOOTECNIA

ESTATÍSTICA APLICADA À ZOOTECNIA ESTATÍSTICA APLICADA À ZOOTECNIA Eucldes Braga MALHEIROS *. INTRODUÇÃO.a) Somatóras e Produtóros Sejam,, 3,...,, valores umércos. A soma desses valores (somatóra) pode ser represetada por: = = = =. e o

Leia mais

MEDIDAS DE POSIÇÃO: X = soma dos valores observados. Onde: i 72 X = 12

MEDIDAS DE POSIÇÃO: X = soma dos valores observados. Onde: i 72 X = 12 MEDIDAS DE POSIÇÃO: São meddas que possbltam represetar resumdamete um cojuto de dados relatvos à observação de um determado feômeo, pos oretam quato à posção da dstrbução o exo dos, permtdo a comparação

Leia mais

Probabilidades e Estatística LEE, LEIC-A, LEIC-T, LEMat, LERC, MEBiol, MEBiom, MEEC, MEFT, MEMec, MEQ

Probabilidades e Estatística LEE, LEIC-A, LEIC-T, LEMat, LERC, MEBiol, MEBiom, MEEC, MEFT, MEMec, MEQ Duração: 90 mutos Grupo I Probabldades e Estatístca LEE, LEIC-A, LEIC-T, LEMat, LERC, MEBol, MEBom, MEEC, MEFT, MEMec, MEQ Justfque coveetemete todas as respostas 1 o semestre 018/019 10/01/019 09:00 o

Leia mais

a) 1,8 e 4,6. b) 2,0 e 2,2. c) 1,8 e 5,2. d) 2,0 e 4,6. e) 2,0 e 1,9.

a) 1,8 e 4,6. b) 2,0 e 2,2. c) 1,8 e 5,2. d) 2,0 e 4,6. e) 2,0 e 1,9. Questão : As otas de dez aluos, um exame, estão dadas a segur:, 5, 8, 3, 6, 5, 8, 7, 6, 0 O desvo médo e a varâca dessas otas podem ser expressos, respectvamete, por: a),8 e 4,6 b),0 e, c),8 e 5, d),0

Leia mais

MAE0229 Introdução à Probabilidade e Estatística II

MAE0229 Introdução à Probabilidade e Estatística II Exercíco Cosdere a dstrbução expoecal com fução de desdade de probabldade dada por f (y; λ) = λe λy, em que y, λ > 0 e E(Y) = /λ Supor que o parâmetro λ pode ser expresso proporcoalmete aos valores de

Leia mais

Inferência Estatística e Aplicações I. Edson Zangiacomi Martinez Departamento de Medicina Social FMRP/USP

Inferência Estatística e Aplicações I. Edson Zangiacomi Martinez Departamento de Medicina Social FMRP/USP Iferêca Estatístca e Aplcações I Edso Zagacom Martez Departameto de Medca Socal FMRP/USP edso@fmrp.usp.br Rotero Parte I Escola frequetsta Defções: parâmetros, estmatvas Dstrbuções de probabldade Estmação

Leia mais

Interpolação. Exemplo de Interpolação Linear. Exemplo de Interpolação Polinomial de grau superior a 1.

Interpolação. Exemplo de Interpolação Linear. Exemplo de Interpolação Polinomial de grau superior a 1. Iterpolação Iterpolação é um método que permte costrur um ovo cojuto de dados a partr de um cojuto dscreto de dados potuas cohecdos. Em egehara e cêcas, dspõese habtualmete de dados potuas, obtdos a partr

Leia mais

? Isso é, d i= ( x i. . Percebeu que

? Isso é, d i= ( x i. . Percebeu que Estatístca - Desvo Padrão e Varâca Preparado pelo Prof. Atoo Sales,00 Supoha que tehamos acompahado as otas de quatro aluos, com méda 6,0. Aluo A: 4,0; 6,0; 8,0; méda 6,0 Aluo B:,0; 8,0; 8,0; méda 6,0

Leia mais

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ É o grau de assocação etre duas ou mas varáves. Pode ser: correlacoal ou expermetal. Numa relação expermetal os valores de uma das varáves

Leia mais

Avaliação da qualidade do ajuste

Avaliação da qualidade do ajuste Avalação da qualdade do ajuste 1 Alguma termologa: Modelo ulo: é o modelo mas smples que pode ser defdo, cotedo um úco parâmetro ( µ) comum a todos os dados; Modelo saturado: é o modelo mas complexo a

Leia mais

Nas Instituições de Ensino Superior(IES), há uma relação direta entre a qualidade do ensino e a taxa de inadimplência. A taxa de inadimplência das

Nas Instituições de Ensino Superior(IES), há uma relação direta entre a qualidade do ensino e a taxa de inadimplência. A taxa de inadimplência das CORRELAÇÃO Nas Isttuções de Eso Superor(IES), há uma relação dreta etre a qualdade do eso e a taxa de admplêca. A taxa de admplêca das IES que obtveram cocetos A e B o Provão é,%, as que obtveram C é 6%

Leia mais

Revisão de Estatística X = X n

Revisão de Estatística X = X n Revsão de Estatístca MÉDIA É medda de tedêca cetral mas comumete usada ara descrever resumdamete uma dstrbução de freqüêca. MÉDIA ARIMÉTICA SIMPLES São utlzados os valores do cojuto com esos guas. + +...

Leia mais

Regressão Linear e Multilinear

Regressão Linear e Multilinear Regressão Lear e Multlear Deleameto Expermetal Mestrado em Sstemas de Produção em Agrcultura Medterrâca Modelo de Regressão Lear Smples X Varável Idepedete Y Varável Depedete y =β +β x +ε β ordeada a orgem

Leia mais

Estatística: uma definição

Estatística: uma definição Prof. Lorí Val, Dr. - val@pucrs.br http://www.pucrs.br/famat/val/ Prof. Lorí Val, Dr. PUCRS FAMAT: Departameto de Estatístca Estatístca: uma defção Coleç Coleção de ú úmeros estatí estatístcas O ú ú mero

Leia mais

Estatística. 2 - Estatística Descritiva

Estatística. 2 - Estatística Descritiva Estatístca - Estatístca Descrtva UNESP FEG DPD Prof. Edgard - 0 0- ESTATÍSTICA DESCRITIVA Possblta descrever as Varáves: DESCRIÇÃO GRÁFICA MEDIDAS DE POSIÇÃO MEDIDAS DE DISPERSÃO MEDIDAS DE ASSIMETRIA

Leia mais

ESTATÍSTICA MÓDULO 2 OS RAMOS DA ESTATÍSTICA

ESTATÍSTICA MÓDULO 2 OS RAMOS DA ESTATÍSTICA ESTATÍSTICA MÓDULO OS RAMOS DA ESTATÍSTICA Ídce. Os Ramos da Estatístca...3.. Dados Estatístcos...3.. Formas Icas de Tratameto dos Dados....3. Notação por Ídces...5.. Notação Sgma ()...5 Estatístca Módulo

Leia mais

MÓDULO 8 REVISÃO REVISÃO MÓDULO 1

MÓDULO 8 REVISÃO REVISÃO MÓDULO 1 MÓDULO 8 REVISÃO REVISÃO MÓDULO A Estatístca é uma técca que egloba os métodos cetícos para a coleta, orgazação, apresetação, tratameto e aálse de dados. O objetvo da Estatístca é azer com que dados dspersos

Leia mais

Probabilidades e Estatística LEAN, LEGI, LEGM, LMAC, MEAer, MEAmbi, MEC

Probabilidades e Estatística LEAN, LEGI, LEGM, LMAC, MEAer, MEAmbi, MEC Duração: 90 mutos Grupo I Probabldades e Estatístca LEAN, LEGI, LEGM, LMAC, MEAer, MEAmb, MEC Justfque coveetemete todas as respostas 1 o semestre 2018/2019 10/01/2019 11:00 2 o teste B 10 valores 1. Cosdere-se

Leia mais

Distribuições de Probabilidades

Distribuições de Probabilidades Estatístca - aulasestdstrnormal.doc 0/05/06 Dstrbuções de Probabldades Estudamos aterormete as dstrbuções de freqüêcas de amostras. Estudaremos, agora, as dstrbuções de probabldades de populações. A dstrbução

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS Uma uversdade oferece um curso para capactação profssoal de joves caretes. Ao fal do curso, cada jovem partcpate será avalado por meo de uma prova teórca e de uma prova prátca,

Leia mais

Parte 3 - Regressão linear simples

Parte 3 - Regressão linear simples Parte 3 - Regressão lear smples Defção do modelo Modelo de regressão empregado para eplcar a relação lear etre duas varáves (ajuste de uma reta). O modelo de regressão lear smples pode ser epresso a forma:

Leia mais

Econometria: 4 - Regressão Múltipla em Notação Matricial

Econometria: 4 - Regressão Múltipla em Notação Matricial Ecoometra: 4 - Regressão últpla em Notação atrcal Prof. arcelo C. ederos mcm@eco.puc-ro.br Prof. arco A.F.H. Cavalcat cavalcat@pea.gov.br Potfíca Uversdade Católca do Ro de Jaero PUC-Ro Sumáro O modelo

Leia mais

Relatório 2ª Atividade Formativa UC ECS

Relatório 2ª Atividade Formativa UC ECS Relatóro 2ª Atvdade Formatva Eercíco I. Quado a dstrbução de dados é smétrca ou apromadamete smétrca, as meddas de localzação méda e medaa, cocdem ou são muto semelhates. O mesmo ão acotece quado a dstrbução

Leia mais

ESTATÍSTICA Exame Final 1ª Época 3 de Junho de 2002 às 14 horas Duração : 3 horas

ESTATÍSTICA Exame Final 1ª Época 3 de Junho de 2002 às 14 horas Duração : 3 horas Faculdade de cooma Uversdade Nova de Lsboa STTÍSTIC xame Fal ª Época de Juho de 00 às horas Duração : horas teção:. Respoda a cada grupo em folhas separadas. Idetfque todas as folhas.. Todas as respostas

Leia mais

A forma geral de um modelo de regressão linear para uma amostra de tamanho n e p variáveis é apresentada a seguir.

A forma geral de um modelo de regressão linear para uma amostra de tamanho n e p variáveis é apresentada a seguir. 2 Regressão O termo regressão fo proposto pela prmera vez por Sr Fracs Galto (885) um estudo ode demostrou que a altura dos flhos ão tede a refletr a altura dos pas, mas tede sm a regredr para a méda da

Leia mais

Construção e Análise de Gráficos

Construção e Análise de Gráficos Costrução e Aálse de Gráfcos Por que fazer gráfcos? Facldade de vsualzação de cojutos de dados Faclta a terpretação de dados Exemplos: Egehara Físca Ecooma Bologa Estatístca Y(udade y) 5 15 1 5 Tabela

Leia mais

Estatística Descritiva. Medidas estatísticas: Localização, Dispersão

Estatística Descritiva. Medidas estatísticas: Localização, Dispersão Estatístca Descrtva Meddas estatístcas: Localzação, Dspersão Meddas estatístcas Localzação Dspersão Meddas estatístcas - localzação Méda artmétca Dados ão agrupados x x Dados dscretos agrupados x f r x

Leia mais

ANÁLISE DE ERROS. Todas as medidas das grandezas físicas deverão estar sempre acompanhadas da sua dimensão (unidades)! ERROS

ANÁLISE DE ERROS. Todas as medidas das grandezas físicas deverão estar sempre acompanhadas da sua dimensão (unidades)! ERROS ANÁLISE DE ERROS A oservação de um feómeo físco ão é completa se ão pudermos quatfcá-lo. Para é sso é ecessáro medr uma propredade físca. O processo de medda cosste em atrur um úmero a uma propredade físca;

Leia mais

ANÁLISE DE REGRESSÃO E CORRELAÇÃO

ANÁLISE DE REGRESSÃO E CORRELAÇÃO ANÁLISE DE REGRESSÃO E CORRELAÇÃO Quado se cosderam oservações de ou mas varáves surge um poto ovo: O estudo das relações porvetura estetes etre as varáves A aálse de regressão e correlação compreedem

Leia mais

Reconhecimento de Padrões. Reconhecimento de Padrões

Reconhecimento de Padrões. Reconhecimento de Padrões Recohecmeto de Padrões 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Escola Superor de Tecologa Egehara Iformátca Recohecmeto de Padrões Prof. João Asceso e Prof. Aa Fred Sumáro:

Leia mais

Probabilidades e Estatística LEGM, LEIC-A, LEIC-T, MA, MEMec

Probabilidades e Estatística LEGM, LEIC-A, LEIC-T, MA, MEMec Duração: 90 mutos Grupo I Probabldades e Estatístca LEGM, LEIC-A, LEIC-T, MA, MEMec Justfque coveetemete todas as respostas 2 o semestre 2017/2018 14/06/2018 11:00 2 o Teste B 10 valores 1. Os dvíduos

Leia mais

MEDIDAS DE DISPERSÃO:

MEDIDAS DE DISPERSÃO: MEDID DE DIPERÃO: fução dessas meddas é avalar o quato estão dspersos os valores observados uma dstrbução de freqüêca ou de probabldades, ou seja, o grau de afastameto ou de cocetração etre os valores.

Leia mais

8 Programação linear 78

8 Programação linear 78 8 Programação lear 78 8 Programação lear A programação lear cosderou duas fuções objetvo: (a) maxmzação da comercalzação do gás e (b) mmzação das perdas (recetas e multas cotratuas). Foram dealzados dos

Leia mais

Confiabilidade Estrutural

Confiabilidade Estrutural Professor Uversdade de Brasíla Departameto de Egehara Mecâca Programa de Pós graduação em Itegrdade Estrutural Algortmo para a Estmatva do Idce de Cofabldade de Hasofer-Ld Cofabldade Estrutural Jorge Luz

Leia mais

Regressão e Correlação

Regressão e Correlação Regressão e Correlação Júlo Osóro Regressão & Correlação: geeraldades Em mutas stuações de pesqusa cetífca, dspomos de uma amostra aleatóra de pares de dados (x, ), resultates da medda cocomtate de duas

Leia mais

Técnicas Não Paramétricas

Técnicas Não Paramétricas Téccas Não Paramétrcas de Estmação de Desdade Reata Cardoso e Fracsco Carvalho Coteúdo Itrodução 2 Hstograma 3 Estmação da desdade 4 Jaelas de Parze Em mutos problemas prátcos As abordages de estmação

Leia mais

Lista de Exercícios #9 Assunto: Análise de Regressão Método de Mínimos Quadrados

Lista de Exercícios #9 Assunto: Análise de Regressão Método de Mínimos Quadrados Lsta de Exercícos #9 Assuto: Aálse de Regressão Método de Mímos Quadrados ANPEC 8 Questão 4 Cosdere o segute modelo de regressão lear smples: () y = β + β x + u Para uma amostra com 3 observações, foram

Leia mais

Distribuições Amostrais. Estatística. 8 - Distribuições Amostrais UNESP FEG DPD

Distribuições Amostrais. Estatística. 8 - Distribuições Amostrais UNESP FEG DPD Dstrbuções Amostras Estatístca 8 - Dstrbuções Amostras 08- Dstrbuções Amostras Dstrbução Amostral de Objetvo: Estudar a dstrbução da população costtuída de todos os valores que se pode obter para, em fução

Leia mais

Probabilidade II Aula 10

Probabilidade II Aula 10 Probabldade II Aula 0 Mao de 009 Môca Barros, D.Sc. Coteúdo Esperaça Matemá (Valores esperados) Mometos e Mometos Cetras Valores esperados de uma fução de Covarâca e Correlação Matrz de covarâca, matrz

Leia mais

ESTATÍSTICA Aula 7. Prof. Dr. Marco Antonio Leonel Caetano

ESTATÍSTICA Aula 7. Prof. Dr. Marco Antonio Leonel Caetano ESTATÍSTICA Aula 7 Prof. Dr. Marco Atoo Leoel Caetao Dstrbuções de Probabldade DISCRETAS CONTÍNUAS (Números teros) Bomal Posso Geométrca Hper-Geométrca Pascal (Números reas) Normal t-studet F-Sedecor Gama

Leia mais

Difusão entre Dois Compartimentos

Difusão entre Dois Compartimentos 59087 Bofísca II FFCLRP USP Prof. Atôo Roque Aula 4 Dfusão etre Dos Compartmetos A le de Fck para membraas (equação 4 da aula passada) mplca que a permeabldade de uma membraa a um soluto é dada pela razão

Leia mais

Conceitos básicos de metrologia. Prof. Dr. Evandro Leonardo Silva Teixeira Faculdade UnB Gama

Conceitos básicos de metrologia. Prof. Dr. Evandro Leonardo Silva Teixeira Faculdade UnB Gama Prof. Dr. Evadro Leoardo Slva Teera Faculdade UB Gama Metrologa: Cêca que abrage os aspectos teórcos e prátcos relatvos a medção; Descreve os procedmetos e métodos para determar as certezas de medções;

Leia mais

UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO CENTRO UNIVERSITÁRIO NORTE DO ESPÍRITO SANTO DEPARTAMENTO DE ENGENHARIAS E TECNOLOGIA Plano de Ensino

UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO CENTRO UNIVERSITÁRIO NORTE DO ESPÍRITO SANTO DEPARTAMENTO DE ENGENHARIAS E TECNOLOGIA Plano de Ensino Plao de Eso Uversdade Federal do Espírto Sato Campus: São Mateus Curso: Egehara de Produção Departameto Resposável: Departameto de Egeharas e Tecologa Data de Aprovação (Art. º 91): Docete resposável:

Leia mais

Prof. Lorí Viali, Dr. PUCRS FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. PUCRS FAMAT: Departamento de Estatística

Prof. Lorí Viali, Dr. PUCRS FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. PUCRS FAMAT: Departamento de Estatística Prof. Lorí Val, Dr. http://www.pucrs.br/famat/val/ val@pucrs.br Prof. Lorí Val, Dr. PUCRS FAMAT: Departameto de Estatístca Prof. Lorí Val, Dr. PUCRS FAMAT: Departameto de Estatístca Obetvos A Aálse de

Leia mais

HIDROLOGIA E RECURSOS HÍDRICOS. Análise estatística aplicada à hidrologia

HIDROLOGIA E RECURSOS HÍDRICOS. Análise estatística aplicada à hidrologia Aálse estatístca aplcada à hdrologa. Séres hdrológcas oções complemetares HIDROLOGIA E RECURSOS HÍDRICOS Aálse estatístca aplcada à hdrologa O Egehero HIDRÁULICO Echerá? Que população pode abastecer e

Leia mais

6.1 - PROCEDIMENTO DE AVALIAÇÃO DE INCERTEZA EM MEDIÇÕES DIRETAS

6.1 - PROCEDIMENTO DE AVALIAÇÃO DE INCERTEZA EM MEDIÇÕES DIRETAS 7 6 - PROCEDIMENTO DE AVALIAÇÃO DE INCERTEZA EM MEDIÇÕES DIRETAS A medção dreta é aquela cuja dcação resulta aturalmete da aplcação do sstema de medção sobre o mesurado Há apeas uma gradeza de etrada evolvda

Leia mais

x Ex: A tabela abaixo refere-se às notas finais de três turmas de estudantes. Calcular a média de cada turma:

x Ex: A tabela abaixo refere-se às notas finais de três turmas de estudantes. Calcular a média de cada turma: Professora Jaete Perera Amador 1 9 Meddas Descrtvas Vmos aterormete que um cojuto de dados pode ser resumdo através de uma dstrbução de freqüêcas, e que esta pode ser represetada através de uma tabela

Leia mais

Faculdade de Tecnologia de Catanduva CURSO SUPERIOR DE TECNOLOGIA EM AUTOMAÇÃO INDUSTRIAL

Faculdade de Tecnologia de Catanduva CURSO SUPERIOR DE TECNOLOGIA EM AUTOMAÇÃO INDUSTRIAL Faculdade de Tecologa de Cataduva CURSO SUPERIOR DE TECNOLOGIA EM AUTOMAÇÃO INDUSTRIAL 5. Meddas de Posção cetral ou Meddas de Tedêca Cetral Meddas de posção cetral preocupam-se com a caracterzação e a

Leia mais

Probabilidades e Estatística

Probabilidades e Estatística Departameto de Matemátca robabldades e Estatístca LEAN, LEE, LEGI, LERC, LMAC, MEAer, MEAmb, MEBol, MEEC, MEMec 2 o semestre 20/202 2 o Teste B 08/06/202 :00 Duração: hora e 30 mutos Justfque coveetemete

Leia mais

Total Bom Ruim Masculino

Total Bom Ruim Masculino UNIDADE I - ESTUDO DIRIGIDO Questão - Classfque as varáves em qualtatva (omal ou ordal ou quattatva (cotíua ou dscreta: a. População: aluos de uma Uversdade. Varável: cor dos cabelos (louro, castaho, ruvo,

Leia mais

Estabilidade no Domínio da Freqüência

Estabilidade no Domínio da Freqüência Establdade o Domío da Freqüêca Itrodução; apeameto de Cotoros o Plao s; Crtéro de Nyqust; Establdade Relatva; Crtéro de Desempeho o Domío do Tempo Especfcado o Domío da Freqüêca; Bada Passate de Sstema;

Leia mais

5 Critérios para Análise dos Resultados

5 Critérios para Análise dos Resultados 5 Crtéros para Aálse dos Resultados Este capítulo tem por objetvos forecer os crtéros utlzados para aálse dos dados ecotrados a pesqusa, bem como uma vsão geral dos custos ecotrados e a forma de sua evolução

Leia mais

TESTES DE PROPORÇÕES TESTE DE UMA PROPORÇÃO POPULACIONAL

TESTES DE PROPORÇÕES TESTE DE UMA PROPORÇÃO POPULACIONAL TESTES DE PROPORÇÕES TESTE DE UMA PROPORÇÃO POPULACIONAL As hpóteses a serem testadas serão: H 0 : p p 0 H : p p 0 p > p 0 p < p 0 Estatístca do Teste: pˆ p0 z c p ( p ) 0 0 EXEMPLOS. Uma máqua está regulada

Leia mais

ANÁLISE DE REGRESSÃO E CORRELAÇÃO

ANÁLISE DE REGRESSÃO E CORRELAÇÃO ANÁLISE DE REGRESSÃO E CORRELAÇÃO Quado se cosderam oservações de ou mas varáves surge um poto ovo: O estudo das relações porvetura estetes etre as varáves. A aálse de regressão e correlação compreedem

Leia mais

Estimação pontual, estimação intervalar e tamanho de amostras

Estimação pontual, estimação intervalar e tamanho de amostras Estmação potual, estmação tervalar e tamaho de amostras Iferêca: por meo das amostras, cohecer formações geras da população. Problemas de ferêca, em geral, se dvdem em estmação de parâmetros e testes de

Leia mais

Dados Experimentais. Isto é chamado de experimento controlado. Uma das vantagens

Dados Experimentais. Isto é chamado de experimento controlado. Uma das vantagens Dados xpermetas Para medr a produção de certa varedade de mlho, faremos um expermeto o qual a varedade de mlho semete é platada em váras parcelas homogêeas com o mesmo fertlzate, pestcda etc. Depos mede-se

Leia mais

MÉTODO DOS MÍNIMOS QUADRADOS

MÉTODO DOS MÍNIMOS QUADRADOS MÉTODO DOS MÍNIMOS QUADRADOS I - INTRODUÇÃO O processo de medda costtu uma parte essecal a metodologa cetífca e também é fudametal para o desevolvmeto e aplcação da própra cêca. No decorrer do seu curso

Leia mais

A análise de variância de uma classificação (One-Way ANOVA) verifica se as médias de k amostras independentes (tratamentos) diferem entre si.

A análise de variância de uma classificação (One-Way ANOVA) verifica se as médias de k amostras independentes (tratamentos) diferem entre si. Prof. Lorí Va, Dr. http://www. ufrgs.br/~va/ va@mat.ufrgs.br aáse de varâca de uma cassfcação (Oe-Way NOV) verfca se as médas de amostras depedetes (tratametos) dferem etre s. Um segudo tpo de aáse de

Leia mais

REGESD Prolic Matemática e Realidade- Profª Suzi Samá Pinto e Profº Alessandro da Silva Saadi

REGESD Prolic Matemática e Realidade- Profª Suzi Samá Pinto e Profº Alessandro da Silva Saadi REGESD Prolc Matemátca e Realdade- Profª Suz Samá Pto e Profº Alessadro da Slva Saad Meddas de Posção ou Tedêca Cetral As meddas de posção ou meddas de tedêca cetral dcam um valor que melhor represeta

Leia mais

9 Medidas Descritivas

9 Medidas Descritivas 1 9 Meddas Descrtvas Vmos aterormete que um cojuto de dados pode ser resumdo através de uma dstrbução de freqüêcas, e que esta pode ser represetada através de uma tabela ou de um gráfco. Se o cojuto refere-se

Leia mais

( ) ( ) Es'mador de Máxima-Verossimilhança. ,θ i. L( Θ; X) = f ( X;Θ) = f (x i

( ) ( ) Es'mador de Máxima-Verossimilhança. ,θ i. L( Θ; X) = f ( X;Θ) = f (x i 5.. Esmador de Máxma-Verossmlhaça O prcípo básco do esmador de Máxma-Verossmlhaça cosste a obteção de esmavas de parâmetros populacoas de uma desdade de uma varável aleatóra a parr de um cojuto de formações

Leia mais

Regressão. Pedro Paulo Balestrassi

Regressão. Pedro Paulo Balestrassi Regressão Pedro Paulo Balestrass www.pedro.ufe.edu.br ppbalestrass@gmal.com 5-696 / 88776958 (cel) Questoametos comus: Como mplemetar a equação Y=f(X) a partr de dados hstórcos ou epermetas? Como fazer

Leia mais

Descritiva. Francisco Cysneiros DE - UFPE

Descritiva. Francisco Cysneiros DE - UFPE Noções de Estatístca Descrtva Dr. Fracsco Cyseros Profº. Adjuto do Departameto de Estatístca-CCEN/UFPE E-mal: cyseros@de.ufpe.br web-page: www.de.ufpe.br/~cyseros/dscpla/farmaca/farmaca.htm Foe: (8) 6

Leia mais

Regressao Simples. Parte I: Introdução

Regressao Simples. Parte I: Introdução Regressao Smples Parte I: Itrodução Curso A aplcação da aálse de regressão requer cohecmeto teórco e eperêca com aálse de dados. Este curso procura combar a teora estatístca com a prátca, dado mas efâse

Leia mais

Ivan G. Peyré Tartaruga. 1 Metodologia espacial

Ivan G. Peyré Tartaruga. 1 Metodologia espacial RELATÓRIO DE PESQUISA 5 Procedmetos o software ArcGIS 9. para elaborar os mapas da Regão Metropoltaa de Porto Alegre RMPA com as elpses de dstrbução drecoal etre 99 e 000 Iva G. Peré Tartaruga Metodologa

Leia mais

4 Métodos Sem Malha Princípio Básico dos Métodos Sem Malha

4 Métodos Sem Malha Princípio Básico dos Métodos Sem Malha 4 Métodos Sem Malha Segudo Lu (9), os métodos sem malha trabalham com um cojuto de ós dstrbuídos detro de um domío, assm como com cojutos de ós dstrbuídos sobre suas froteras para represetar, sem dscretzar,

Leia mais

Previsão de demanda quantitativa Regressão linear Regressão múltiplas Exemplos Exercícios

Previsão de demanda quantitativa Regressão linear Regressão múltiplas Exemplos Exercícios Objetvos desta apresetação Plaejameto de produção: de Demada Aula parte Mauro Osak TES/ESALQ-USP Pesqusador do Cetro de Estudos Avaçados em Ecooma Aplcada Cepea/ESALQ/USP de demada quattatva Regressão

Leia mais

RACIOCÍNIO LÓGICO / ESTATÍSTICA LISTA 2 RESUMO TEÓRICO

RACIOCÍNIO LÓGICO / ESTATÍSTICA LISTA 2 RESUMO TEÓRICO RACIOCÍIO LÓGICO - Zé Carlos RACIOCÍIO LÓGICO / ESTATÍSTICA LISTA RESUMO TEÓRICO I. Cocetos Icas. O desvo médo (DM), é a méda artmétca dos desvos de cada dado da amostra em toro do valor médo, sto é x

Leia mais

Bruno Hott Algoritmos e Estruturas de Dados I DECSI UFOP. Aula 10: Ordenação

Bruno Hott Algoritmos e Estruturas de Dados I DECSI UFOP. Aula 10: Ordenação Bruo Hott Algortmos e Estruturas de Dados I DECSI UFOP Aula 10: Ordeação O Crtéro de Ordeação Ordea-se de acordo com uma chave: typedef t TChave; typedef struct{ TChave chave; /* outros compoetes */ Item;

Leia mais

DESEMPENHO DE ESTIMADORES DA MÉDIA POPULACIONAL DE DISTRIBUIÇÕES ASSIMÉTRICAS BASEADOS EM AMOSTRAGEM POR CONJUNTOS ORDENADOS

DESEMPENHO DE ESTIMADORES DA MÉDIA POPULACIONAL DE DISTRIBUIÇÕES ASSIMÉTRICAS BASEADOS EM AMOSTRAGEM POR CONJUNTOS ORDENADOS DESEMPENHO DE ESTIMADORES DA MÉDIA POPULACIONAL DE DISTRIBUIÇÕES ASSIMÉTRICAS BASEADOS EM AMOSTRAGEM POR CONJUNTOS ORDENADOS Fracsco Juor PIGATO Mara Cecíla Medes BARRETO RESUMO: Um deleameto amostral

Leia mais

Análise de Regressão

Análise de Regressão Aálse de Regressão Prof. Paulo Rcardo B. Gumarães. Itrodução Os modelos de regressão são largamete utlzados em dversas áreas do cohecmeto, tas como: computação, admstração, egeharas, bologa, agrooma, saúde,

Leia mais

Análise Exploratória de Dados

Análise Exploratória de Dados Aálse Eploratóra de Dados Objetvos Aálse bvarada: uma varável qualtatva e uma quattatva: represetar grafcamete as duas varáves combadas; defr e calcular uma medda de assocação etre as varáves. Eemplo 1

Leia mais

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional. ou experimental.

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional. ou experimental. É o grau de assocação etre duas ou mas varáves. Pode ser: correlacoal Prof. Lorí Val, Dr. val@pucrs.br http://www.pucrs.br/famat/val/ ou expermetal. Numa relação expermetal os valores de uma das varáves

Leia mais

Forma padrão do modelo de Programação Linear

Forma padrão do modelo de Programação Linear POGAMAÇÃO LINEA. Forma Padrão do Modelo de Programação Lear 2. elações de Equvalêca 3. Suposções da Programação Lear 4. Eemplos de Modelos de PPL 5. Suposções da Programação Lear 6. Solução Gráfca e Iterpretação

Leia mais