2 Fundamentos Teóricos

Tamanho: px
Começar a partir da página:

Download "2 Fundamentos Teóricos"

Transcrição

1 Fundamentos Teórcos 2 Fundamentos Teórcos 2. Aprendzado de Máquna Aprendzado de Máquna é uma área de Intelgênca Artfcal cuo obetvo é o desenvolvmento de técncas computaconas sobre o aprendzado bem como a construção de sstemas capazes de adqurr conhecmento de forma automátca. Possu um grande número de aplcações como, por exemplo, máqunas de busca, dagnóstco médco, detecção automátca de fraude de cartão de crédto, análse de aplcações fnanceras, classfcação de seqüêncas de DNA e classfcação automátca de textos. Um programa aprende um conunto de tarefas T com uma medda de desempenho D a partr de uma experênca E, se seu desempenho de aprendzado D aumenta com a experênca E [Mtchell, 997], ou sea, se é capaz de tomar decsões baseado em experêncas acumuladas por meo da solução bem sucedda de problemas anterores. Por exemplo, uma aplcação que necesste reconhecer pessoas através de um sensor tem como tarefa T assocar magens captadas pelo sensor a pessoas, medda de desempenho D como sendo a percentagem de pessoas corretamente reconhecdas e experênca de trenamento E como sendo um conunto de pares ordenados compostos por uma magem e o nome de uma pessoa. Exste uma sére de problemas que são de dfícl solução que podem ser bem resolvdos com as técncas de aprendzado de máquna. Por exemplo: algumas tarefas só podem ser bem defndas através de exemplos, onde não é conhecda nenhuma relação à pror entre os dados de entrada e a saída deseada. Além dsso, tarefas que são suetas a mutas mudanças podem ser aprenddas pela máquna, uma vez que a máquna se adapta a tas mudanças. A capacdade de adaptação de sstemas de aprendzado de máquna também permte que tas sstemas seam portados para domínos completamente dferentes sem a necessdade de recrar o sstema para suportar o novo domíno. Assm, se uma máquna é capaz de

2 Fundamentos Teórcos 2 aprender a classfcar notícas de ornas em uma herarqua de categoras, a mesma máquna também é capaz de aprender a fltrar spams ou até mesmo resolver problemas de ambgüdade em palavras no processamento de lnguagem natural. Para desenvolver um sstema de aprendzado é necessáro tomar algumas decsões de proeto. Prmeramente, deve-se escolher que tpo de exemplos de trenamento será usado. Por exemplo, no problema de classfcação automátca de textos, o trenamento será um conunto de pares compostos de um documento e sua respectva classe. Após a escolha do tpo de dados a ser usado como exemplo de trenamento, o próxmo passo é defnr exatamente que tpo de conhecmento será aprenddo. O problema de aqusção de conhecmento pode, então, ser reduzdo ao problema de se aprender uma função obetvo f, que assoca valores de entrada (os específcos das tarefas a serem aprenddas) com valores de saída correspondentes, que auxlam nas decsões ou ações a serem tomadas. O sstema gera uma hpótese h que se aproxma da função obetvo f conforme realzado o trenamento. Em aprendzado de máquna exstem dversas formas de aprendzagem, como por exemplo, Smbólco, Estatístco, Baseado em Exemplos, Conexonsta e Evolutvo. Os sstemas de aprendzado smbólco constroem representações smbólcas de um conceto através da análse de exemplos e contra-exemplos, na forma de alguma expressão lógca, árvore de decsão, regras ou rede semântca. O aprendzado estatístco utlza modelos estatístcos para encontrar uma aproxmação da função obetvo. O problema a ser resolvdo é, dado um conunto de exemplos de dstrbução de probabldade não conhecda, descobrr a qual dstrbução um novo exemplo pertence. O aprendzado baseado em exemplos utlza a déa de que para determnar a saída da função obetvo, dado um valor de entrada não conhecdo, deve-se buscar outro valor de entrada smlar cua saída é conhecda e assumr que o novo exemplo terá o mesmo valor de saída. Para sso, é necessáro guardar os exemplos de trenamento em memóra, sendo, por sso, chamado de sstemas de aprendzado lazy, em oposção aos sstemas de aprendzado eager, que utlzam os exemplos para nduzr o modelo, descartando-os logo em seguda.

3 Fundamentos Teórcos 22 O aprendzado conexonsta utlza redes neuras, que são construções matemátcas não lneares altamente nterconectadas nspradas no fenômeno de aprendzado do cérebro humano. As conexões entre os neurônos artfcas possuem pesos que são obtdos através do trenamento, ou sea, o conhecmento adqurdo durante o trenamento de uma rede neural fca armazenado nos pesos das lgações entre os neurônos artfcas. Mutas são as aplcações prátcas das redes neuras, como por exemplo, reconhecmento de magens, reconhecmento de genes em uma seqüênca de DNA e prevsão do movmento da bolsa de valores, a partr de uma sére hstórca. O aprendzado evolutvo se basea na le da seleção natural de Darwn. O algortmo é ncado com uma população de estmadores para a função obetvo. Tas estmadores competem para realzar a reprodução e com sso produzr ndvíduos smlares. Indvíduos que possuem desempenho fraco tendem a ser descartados da população de estmadores, enquanto ndvíduos de desempenho alto tendem a prolferar. Dessa forma, conforme o algortmo é executado, o melhor estmador da função obetvo va sendo aprmorado. 2.2 O problema da classfcação Em geral, exstem dos tpos de racocíno. O racocíno dedutvo e o racocíno ndutvo. O racocíno dedutvo é uma forma de nferênca na qual a conclusão tem o mesmo grau de certeza que as premssas, em oposção ao racocíno ndutvo, onde a conclusão pode ter um grau de certeza nferor às premssas. Um exemplo de racocíno dedutvo: Todos os pássaros possuem asas. Um canáro é um pássaro. Logo, um canáro possu asas. Um exemplo de racocíno ndutvo: Todos os corvos observados são pretos. Logo, todos os corvos são pretos.

4 Fundamentos Teórcos 23 Através do racocíno ndutvo, é possível obter conclusões genércas sobre um conunto partcular de exemplos. Em aprendzado de máquna, o racocíno ndutvo é utlzado generalzar concetos, para aproxmar funções, para descobrr novas funções através de exemplos fornecdos. O aprendzado ndutvo deve ser aplcado com cudado, pos se o número de exemplos for nsufcente, ou se os exemplos não forem bem escolhdos, as hpóteses obtdas podem ser nconsstentes. Classfcação e regressão são dos tpos de aplcações de aprendzado ndutvo com a fnaldade de predzer valores de uma função obetvo f, dado um valor de entrada anda não conhecdo. A regressão consste em aproxmar uma função contínua a partr de um conunto de exemplos composto de pontos. Tal método pode ser aplcado na prevsão de preços de um produto, valores de ações no mercado de ações e prever a ocorrênca de um determnado evento (regressão logístca). Na tarefa de classfcação, o obetvo do algortmo de aprendzado é construr um classfcador que possa determnar corretamente a classe de novos exemplos anda não rotulados, dado um conunto de classes e um conunto de exemplos de trenamento. O aprendzado ndutvo pode ser subdvdo em aprendzado não supervsonado e aprendzado supervsonado. No aprendzado supervsonado, o conunto de trenamento consste de pares ordenados consttuídos de um obeto (tpcamente vetores) e o seu respectvo valor da função obetvo. A saída da função obetvo pode ser contínua, no caso da regressão, ou pode ser dscreta, no caso da classfcação, onde os valores de saídas são rótulos de categoras. No aprendzado não supervsonado, o conunto de trenamento consste apenas de exemplos sem nenhum valor de função assocado. Tpcamente, o problema se resume em partconar os exemplos de trenamento em agrupamentos, ou clusters. Anda assm, pode-se consderar o problema como um caso de aprendzagem de uma função obetvo, pos o valor da função é o nome do agrupamento ao qual um obeto de entrada pertence.

5 Fundamentos Teórcos 24 Aprendzado Indutvo Aprendzado Supervsonado Aprendzado Não Supervsonado Classfcação Regressão Clusterzação Fgura Herarqua do Aprendzado 2.3 Classfcação automátca de textos A classfcação de textos é a tarefa de assocar textos em lnguagem natural a rótulos pré-defndos. Esse problema vem sendo tratado desde os anos 60, porém só nos anos 90, a classfcação de textos começou a ser amplamente aplcada, graças ao desenvolvmento de máqunas mas potentes e da facldade de publcação de textos em forma eletrônca. A classfcação de textos é uma área que engloba concetos de extração de nformação e de aprendzado de máquna e possu mutas característcas em comum com outras tarefas como extração de conhecmento e mneração de textos. A classfcação de textos pode ser aplcada em uma grade varedade de contextos como, por exemplo: ndexação automátca de textos [Maron, 96], dentfcação de autores de textos [Mosteller & Wallace, 964], fltragem de e- mals [Graham, 2002], classfcação herárquca de págnas da nternet [McCallum et al., 998] e geração automátca de metadados [Gles et al., 2003]. Consdere um conunto de documentos D = {d, d 2,..., d D } e um conunto de categoras C = {c, c 2,..., c C }. O problema da classfcação automátca de textos consste em estmar uma função obetvo Φ : D C {0,}, que assoca um valor booleano a cada par ( d, c ) D C. Um valor assocado ao par ( d, c ) ndca que o documento d pertence à categora c, enquanto que um valor 0 ndca que o documento d não pertence à categora c.

6 Fundamentos Teórcos Classfcação unrótulo e multrótulo Na classfcação de textos podem exstr restrções relaconadas à quantdade de categoras do conunto C e a quantdade de categoras assocadas a cada documento d. Consderando a restrção de quantdade de categoras no conunto C, podese subdvdr o problema da classfcação em classfcação bnára, onde cada documento d D está assocado a uma categora c ou ao seu complemento c, e na classfcação multcategora, onde o conunto de categoras C possu mas de duas categoras. Consderando a restrção de quantdade de categoras assocadas a cada documento, a classfcação unrótulo corresponde ao caso em que um documento d D está assocado a exatamente uma categora. Nesse caso, as categoras são mutuamente exclusvas. d A classfcação multrótulo corresponde ao caso em que um documento D está assocado a zero ou mas categoras, onde tas categoras não são mutuamente exclusvas. Pode-se verfcar que a classfcação do tpo bnára é um caso partcular da classfcação unrótulo. 2.5 Conuntos de trenamento, valdação e teste A classfcação de textos baseada nas técncas de máquna de aprendzado necessta de um conunto de documentos (corpus) Ω = { d,..., d } D préclassfcados nas categoras do conunto C = { c,..., c C }. Para a construção de um classfcador dvde-se o conunto Ω em três subconuntos dsuntos: um conunto de trenamento Tr = { d,..., d Tr }, um conunto de valdação T = { d,..., d } e um Ω v T v conunto de teste T = { d,..., d }. Em alguns casos, o conunto de valdação T v é vazo. e T e O classfcador é construído através do conunto de trenamento T r, e os parâmetros são austados através de repetdos testes realzados no conunto de

7 Fundamentos Teórcos 26 valdação T v. Então, através do conunto de teste T e, são realzados testes para medr a efcênca do algortmo de classfcação. Os subconuntos são dsuntos para assegurar que os resultados expermentas obtdos, através do conunto de teste, seam de um conunto dferente do usado para realzar o aprendzado, tornando os resultados estatstcamente váldos. 2.6 Representação de documentos A forma mas smples de representar documentos é assocar ao documento d um vetor de pesos d = { w,..., w V } onde V é o conunto de termos que ocorrem em pelo menos um documento de T r e o peso w k que representa, grosso modo, quanto o termo t k contrbu para a semântca do documento d. Exstem dversas abordagens que dferem na defnção do que sgnfca o termo t k e como calcular os pesos w k. A representação mas abordada na lteratura de classfcação de textos é conhecda como bag of words. Nessa abordagem, cada termo corresponde a uma únca palavra no conunto de palavras do conunto de trenamento. Lews, [992], mostrou que representações de documentos mas sofstcadas, como frases, resultaram em um por desempenho em expermentos rodados na base de notícas da Reuters. Além dsso, [Scott & Matwn, 999] acrescentaram nformação semântca à tarefa de classfcação de textos e não obtveram resultados satsfatóros. Em contraste, outros trabalhos apresentaram melhor desempenho na utlzação de frases [Mladenć & Grobelnk, 998] e reconhecmento de nomes própros [Basl, 2000], comparados à representação tradconal bag of words. Desta forma, a efcáca de modelos mas complexos anda necessta de mas estudos. Com relação ao cálculo dos pesos w k, a abordagem mas conhecda e muto comum em sstemas de recuperação de nformação é a combnação de duas meddas, Term Frequence (tf) e Inverse Document Frequence (df) defnda como:

8 Fundamentos Teórcos 27 tfdf ( t, d ) = tf ( t, d ) df ( t, d ) k k k tf ( t, d ) = #( t, d ) k k Tr df ( tk, d ) = log # Tr ( t ) Onde #(t k, d ) é a freqüênca do termo t k no documento d, #Tr(t k ) é o número de documentos do conunto T r que possuem pelo menos uma ocorrênca do termo t k. O termo tf(t k, d ) ndca a mportânca do termo t k no documento d. Dessa forma, se um termo é muto freqüente no documento d, então ele deve ser mportante para representação do documento. Porém, um termo que sea freqüente em mutos documentos do conunto T r não é um termo representatvo para o documento d. Desta forma, calcula-se a medda df, que é nversamente proporconal à quantdade de documentos em que o termo t k ocorre. Com o propósto de gualar o tamanho dos vetores que representam os documentos, o valor da medda tfdf é normalzado: w k tfdf ( tk, d ) = (2) V 2 ( tfdf ( t, )) s s d = Outra abordagem muto usada em classfcadores probablístcos é representar um documento através de pesos bnáros, onde um valor 0 representa a ausênca e o valor representa a presença do termo no documento [Robertson & Sparck Jones, 976]. A abordagem utlzada nesse trabalho representa um documento através de um vetor de freqüêncas, onde cada componente corresponde à freqüênca do termo no documento. k () 2.7 Pré-processamento de documentos A preparação dos textos é a prmera fase do processo de cração ndutva de classfcadores de texto. Esta fase envolve a seleção de termos que melhor expressam o conteúdo de textos, ou sea, toda a nformação que não refletr nenhuma déa consderada mportante é desconsderada. Desta forma, a seleção de termos reduz a quantdade de termos e, por consegunte, a dmensão dos vetores que representam os documentos. Uma

9 Fundamentos Teórcos 28 redução da dmensão dos vetores mplca em uma menor quantdade de memóra utlzada e em menor processamento. Além dsso, reduz a possbldade de overfttng, fenômeno que ocorre quando o classfcador é austado de forma muto específca para o conunto de trenamento, mplcando em uma baxa perfomance na classfcação de documentos não conhecdos pelo classfcador [Sebastan, 999] Stopwords Stopwords são palavras consderadas não relevantes para a análse de textos. Na maora das vezes são palavras auxlares ou conectvas, não fornecendo nenhuma nformação dscrmnatva na expressão do conteúdo do texto. Palavras como pronomes, artgos, preposções e conunções podem ser consderaradas stopwords. Para cada língua exste um conunto de stopwords (também conhecdo como stoplst ). Uma vez defnda a lsta de stopwords, para cada documento, são retradas as ocorrêncas no texto de todas as stopwords Stemmng A tarefa de stemmng consste em agrupar palavras que possuem a mesma raz morfológca. Algumas técncas de stemmng serão apresentadas a segur, com o obetvo de elucdar as dferentes abordagens utlzadas pelos algortmos exstentes Método de Stemmer S O método mas smples de stemmng é o stemmer S [Harman, 99], no qual apenas alguns fnas de palavras são removdos. Por exemplo, os fnas de palavras da língua nglesa es, es e s (com exceções). Embora o stemmer S não descubra mutas fusões, alguns sstemas o usam, pos ele é conservador e raramente surpreende o usuáro.

10 Fundamentos Teórcos Método de Porter O método de stemmng de Porter [Porter, 980] consste na dentfcação das dferentes nflexões de uma mesma palavra e sua substtução por um radcal comum. O algortmo remove 60 sufxos dferentes em uma abordagem composta de cnco fases. Termos com um stem comum mutas vezes possuem sgnfcados smlares, por exemplo: ESTUDO ESTUDOS ESTUDAR ESTUDADO Método de Lovns O método de Lovns [Lovns, 968] é composto de um únco passo, é sensível ao contexto e usa um algortmo de combnação mas longa para extrar em torno de 250 sufxos dstntos. Tal método retra no máxmo um sufxo por palavra, removendo o sufxo mas longo. Comparado aos outros dos métodos apresentados, este método é o mas agressvo Freqüênca de Documentos (DF) Freqüênca de documentos (DF) é o número de documentos no qual um termo ocorre. A déa desse método é calcular a freqüênca DF de cada termo e remover o termo do vocabuláro do corpus, se a freqüênca for menor que um determnado lmar. A suposção básca é a de que termos raros são nãonformatvos para predzer a categora ou não nfluencam o desempenho global. Freqüênca de documentos é a técnca mas smples de redução de termos. Ela é faclmente escalável para conuntos de mutos documentos, com uma complexdade computaconal pratcamente lnear em relação à quantdade de documentos.

11 Fundamentos Teórcos Ganho de Informação (IG) Ganho de nformação é amplamente empregado como um crtéro de mportânca de termos no campo de aprendzado de máquna. Através dessa técnca, é medda a quantdade de nformação relatva à predção da categora, pela presença ou ausênca de um termo em um documento. Dado um conunto de categoras C = {c, c 2,..., c C }, o ganho de nformação de um termo t k é defndo como: k = = k k = = k k k k G( t ) P( c )log P( c ) + P( t ) P( c t )log P( c t ) (3) + P( t ) P( c t )log P( c t ) Dado um conunto de documentos de trenamento, para cada termo, é calculado o ganho de nformação e são removdos do corpus os termos que possuírem um ganho de nformação nferor a um lmar pré-determnado Informação Mútua (MI) Informação mútua é um crtéro normalmente usado em modelagem estatístca da lnguagem em assocações de palavras. Dado um termo t k e uma categora c, consdere A o número de vezes que t k e c co-ocorrem, B o número de vezes que t k ocorre sem c, C o número de vezes que c ocorre sem t k e N o número total de documentos de trenamento. A medda de nformação mútua é defnda como: P( tk c ) I ( tk, c ) = (4) P( t ) P( c ) Estma-se a medda de nformação mútua usando-se: log A N I( tk, c ) (5) ( A + C)( A + B) A medda I(t k, c ) tem o valor de zero caso t k e c forem ndependentes. Para medr a mportânca de um termo globalmente, combnam-se as pontuações de um termo específcas para cada categora em duas formas alternatvas: k

12 Fundamentos Teórcos 3 I ( t ) = P( c ) I( t, c ) (6) avg k k = max { } I ( t ) = max I ( t, c ) (7) k k = Desta forma, para cada termo, é calculada a nformação mútua e são removdos do corpus os termos que possuírem um valor nferor a um lmar prédetermnado Estatístca χ 2 (CHI) A estatístca χ 2 mede o grau de dependênca entre um termo t k e uma categora c. Consderando A o número de vezes que t k e c co-ocorrem, B o número de vezes que t k ocorre sem c, C o número de vezes que c ocorre sem t k e D o número de vezes que nem c nem t k ocorrem, e N o número total de documentos de trenamento, a medda é defnda por: 2 N ( AD CB) χ ( tk, c ) = (8) ( A + C) ( B + D) ( A + B) ( C + D) 2 Assm como a medda de nformação mútua, calcula-se o grau de mportânca global de um termo t k de duas formas: 2 2 tk P c χ tk c = χ ( ) = ( ) (, )(9) χ { χ } 2 2 max tk tk c = ( ) = max (, ) (0) 2.8 Classfcadores probablístcos Classfcadores probablístcos utlzam probabldades para aproxmar a função obetvo do problema da classfcação de textos. Desta forma, dado um conunto de categoras C = {c,..., c C } e um documento d = { w,..., w V } não conhecdo, o algortmo estma a probabldade do documento pertencer a cada uma das categoras do conunto C, representada

13 Fundamentos Teórcos 32 por P( c d ), e classfca o documento d na categora com maor probabldade estmada. Desta forma, a função que aproxma a função obetvo da tarefa de classfcação pode ser defnda como: * Φ ( d, ck ) = c ( d ) = ck () * Φ ( d, c ) = 0 c ( d ) c k k c * ( d ) = arg max c { P( c )} d = arg max c {log P( c )} d (2) = arg max {log( P( c ) P( d c ))} c Para calcular a probabldade P( c d ), o algortmo faz uso do teorema de Bayes: P( c ) P( d c ) P( c d ) = (3) P( d ) Onde P(c ) é a probabldade de um documento escolhdo aleatoramente pertencer à categora c, P( d ) é a probabldade de um documento ser representado pelo vetor d e P( d c ) é a probabldade de um documento ser representado pelo vetor d, dado que ele pertence à categora c Nave Bayes O classfcador nave Bayes assume que exste ndependênca entre os termos de um documento. Tal hpótese smplfcadora é muto crtcada por não representar a realdade, porém Domngos & Pazzan, [997] mostraram teorcamente que a suposção de ndependênca de palavras na maora dos casos não preudca a efcênca do classfcador. Bascamente, exstem dos tpos de modelos estatístcos para os classfcadores nave Bayes que serão apresentados nas duas seções a segur.

14 Fundamentos Teórcos Modelo bnáro O modelo bnáro representa um documento através de um vetor bnáro, onde um valor 0 na posção k sgnfca que o documento não possu nenhuma ocorrênca do termo t k e um valor sgnfca que o documento possu pelo menos uma ocorrênca do termo t k. Desta forma, calcula-se: V P( d c ) = P( w c ) (4) k k= w k k k wk k P( w c ) = P( t c ) ( P( t c )) (5) Tr + w kxφ( d x, c ) x= P( tk c ) = (6) V Tr 2 + w Φ ( d, c ) s= x= sx x Com o propósto de evtar que a probabldade P( d c ) sea 0 smplesmente porque uma palavra do documento d não ocorre em nenhum documento da categora c, o valor é somado ao numerador e o valor 2 é somado ao denomnador. Esta técnca é chamada de amortzação de Laplace, sendo muto utlzada na lteratura. Substtundo-se a equação (5) na equação (4) tem-se: V wk = k k k= wk P( tk c ) ( P( tk c ) P tk c P( d c ) P( t c ) ( P( t c )) = ( ) Desta forma, através da equação (2), pode-se dervar: wk (7) V P( tk c ) log P( c ) + wk log + k P ( tk c ) = = (8) wk log( P( tk c )) k= * c ( d ) arg max c V Para calcular P(c ): P( c ) = Tr k= Φ( d, c ) k (9) Tr

15 Fundamentos Teórcos Modelo multnomal Já o modelo multnomal representa um documento através de um vetor de freqüêncas, onde o peso w k representa a freqüênca do termo t k no documento d. O modelo se basea na dstrbução multnomal e calcula P( d c ) da segunte forma: P( tk c ) P( d c ) = P( d ) d! w! V k= k w k Tr + w kxφ( dx, c ) x= k c = V Tr V + w s x sx dx c = Φ = P( t ) (20) (2) (, ) Substtundo-se a formula (20) na fórmula (2), tem-se: 2.9 Meddas de desempenho ( ) arg max log ( ) log ( ) (22) V * c d = c P c + wk P tk c k= Nesta seção serão apresentadas as prncpas meddas de efcênca para classfcadores e nclusve as meddas de efcênca utlzadas nos expermentos realzados sobre os dos algortmos propostos Matrz de contngênca A matrz de contngênca de um classfcador oferece uma medda efetva do modelo de classfcação, uma vez que apresenta o número de classfcações corretas versus as classfcações predtas pelo algortmo para cada classe. Dado um conunto de teste T e e um conunto de categoras C = {c, c 2,..., c C }, os resultados são totalzados em duas dmensões: classfcação verdadera e classfcação predta, onde : M ( c, c ) = Φ ( d, c ) = (23) k { dk T e: Φ ( dk, c ) = }

16 Fundamentos Teórcos 35 Classe Predta c Predta c 2... Predta c C Verdadera c M(c, c ) M(c, c 2 )... M(c, c C ) Verdadera c 2 M(c 2, c ) M(c 2, c 2 )... M(c 2, c C )..... Verdadera c C M(c 2, c ) M(c 2, c ) M(c 2, c ) M(c C, c C ) Tabela Matrz de contngênca de um classfcador. O número de acertos para cada classe, se localza na dagonal prncpal da matrz. Os demas elementos representam erros na classfcação. A matrz de contngênca de um classfcador deal possu todos esses elementos guas à zero. Por smplcdade, consdere um problema de classfcação bnára de uma classe c. O problema deve classfcar documentos de teste em c ou c. Desta forma, tem-se a matrz de contngênca: Classe Verdadera c Verdadera c Predta c Verdaderos postvos TP Falsos postvos FP Predta c Falsos negatvos FN Verdaderos negatvos TN Tabela 2 Matrz de contngênca de um classfcador bnáro Precson e Recall A efcênca da tarefa de classfcação normalmente é calculada através de meddas clásscas de aqusção de nformação, chamadas de recall (р) e de precson (π). Dada uma categora c, recall e precson assocadas à categora c são defndas como: TP p = (24) TP + FN TP π = (25) TP + FP Além das duas meddas assocadas a cada categora, também são usadas meddas globas:

17 Fundamentos Teórcos 36 Mcro recall: Mcro precson: Macro recall: Macro precson: TP = µρ = ( ) (26) TP + FN = TP = µπ = ( ) (27) TP + FP M = ρ = (28) C = ρ M π = (29) C = π Essas duas meddas globas normalmente apresentam resultados um pouco dferentes, prncpalmente devdo à dstrbução de documentos de trenamento em relação às categoras. Caso a dstrbução de documentos sea dsforme, um classfcador com um bom desempenho deve dar mas ênfase para as meddas de macro recall e macro precson e menos ênfase para as meddas de mcro recall e mcro precson. Para um classfcador ter uma performance boa, não basta ter somente a medda de recall alta, ou a medda de precson alta, soladamente. Consdere o exemplo de um classfcador que classfca um documento em todas as classes. Tal classfcador possurá a medda recall muto alta, uma vez que a quantdade de falsos negatvos é nula, porém uma medda precson baxa. Desta forma, é necessára uma medda que combne as duas meddas. Mutas meddas de combnação de recall e precson, sendo que as mas utlzadas são: Eleven-pont average precson: os parâmetros do classfcador, (por exemplo, lmares), são austados com o propósto da medda р varar de 0.0, 0.,..., 0.9,.0. Além dsso, a medda π é calculada para as terações e é calculada a méda dos valores de π. Breakeven pont: são realzadas dversas terações, varando-se os parâmetros do classfcador e é gerado gráfco das meddas р e π. O

18 Fundamentos Teórcos 37 breakeven pont é o ponto onde as meddas р e π possuem o mesmo valor. A função F β, que é uma combnação das meddas р e π, e é defnda como: 2 ( β + ) πρ F β = 2 (30). Normalmente, um valor β = é usado, β π + ρ dando gual mportânca para as meddas р e π, e é chamada de F. A medda F fo utlzada nesse trabalho para medr o desempenho dos algortmos propostos. 2.0 Métodos de avalação de classfcadores Uma vez construído um classfcador de textos, deve-se mostrar sua efcênca através de metodologas de avalação de desempenho que permtam que seus resultados seam comparáves com outros classfcadores. Nesta seção serão apresentados os prncpas métodos de avalação de desempenho de classfcadores Resubsttução O método de resubsttução consste em construr e testar o classfcador no mesmo conunto de documentos, ou sea, o conunto de documentos de teste é exatamente gual ao conunto de documentos de trenamento. Tal método fornece uma estmatva altamente otmsta da efcáca do algortmo. Porém, este método não garante que o bom desempenho no conunto de trenamento se estenda para conuntos ndependentes de teste. Desta forma, dversos métodos de reamostragem foram propostos, os quas são descrtos a segur. Todos estão baseados no mesmo prncípo: não deve haver documentos em comum entre os conuntos de trenamento, valdação e de teste Holdout O método holdout dvde os documentos em uma porcentagem fxa de documentos p para trenamento e ( p) para teste, consderando normalmente p

19 Fundamentos Teórcos 38 > /2. Valores típcos são p = 2/3 e ( p) = /3, embora não exstam fundamentos teórcos sobre estes valores. Uma vez realzada a dvsão, é nduzdo um classfcador a partr do conunto de trenamento e são calculadas as meddas de efcênca sobre os documentos de teste. A desvantagem desse método é que ele possu apenas uma teração, dependendo muto da qualdade da partção escolhda Amostragem aleatóra Na amostragem aleatóra, são cradas K partções do conunto de todos os documentos. Cada partção é crada seleconando de forma aleatóra e sem reposção um número fxo de documentos pra trenamento. São realzados K expermentos e a medda de efcênca é a méda das meddas de efcênca obtdas em cada expermento. A amostragem aleatóra pode produzr melhores estmatvas de erro que o método holdout K-Fold Cross Valdaton Nesse método, os documentos são aleatoramente dvddos em K partções mutuamente exclusvas ( folds ) de tamanho aproxmadamente gual a n/k, onde n é o tamanho do conunto de documentos. Então, são realzados K expermentos, onde, em cada expermento, uma partção dferente é escolhda para o teste e as K partções restantes são escolhdas para o trenamento. A medda de efcênca é a méda das meddas de efcênca calculadas para cada uma das partções. A grande vantagem desse método comparado ao anteror, é que todos os documentos são usados tanto para trenamento quanto para teste Leave-One-Out O método leave-one-out é um caso especal de cross-valdaton. Possu uma complexdade computaconal elevada e, portanto, é mas usado em amostras pequenas. Para um conunto de n documentos, um exemplo é usado para teste e n

20 Fundamentos Teórcos 39 documentos são usados para trenamento. Este processo é repetdo n vezes, cada vez escolhendo um exemplo dferente para teste. A medda de efcênca deste método é a méda das meddas de efcênca dos n expermentos realzados Bootstrap No método bootstrap, o conunto de trenamento possu o mesmo tamanho do conunto de todos os documentos e é consttuído de documentos seleconados aleatoramente com reposção a partr de tal conunto. Desta forma, para um mesmo conunto de trenamento, alguns documentos podem não estar ncluídos, enquanto outros podem aparecer mas de uma vez. Os documentos que não aparecem no conunto de trenamento são usados como conunto de teste. Geralmente, o processo de bootstrap é repetdo númeras vezes, sendo que a medda de efcênca estmada é a méda das meddas de efcênca obtdas em cada expermento.

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência. MODELO DE REGRESSÃO DE COX Os modelos de regressão paramétrcos vstos anterormente exgem que se suponha uma dstrbução estatístca para o tempo de sobrevvênca. Contudo esta suposção, caso não sea adequada,

Leia mais

Reconhecimento Estatístico de Padrões

Reconhecimento Estatístico de Padrões Reconhecmento Estatístco de Padrões X 3 O paradgma pode ser sumarzado da segunte forma: Cada padrão é representado por um vector de característcas x = x1 x2 x N (,,, ) x x1 x... x d 2 = X 1 X 2 Espaço

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Plano de Aula Aprendzagem de Máquna Aprendzagem Baseada em Instâncas Alessandro L. Koerch Introdução Espaço Eucldano Aprendzagem Baseada em Instâncas (ou Modelos Baseados em Dstânca) Regra knn (k vznhos

Leia mais

INTRODUÇÃO À PROBABILIDADE. A probabilidade é uma medida da incerteza dos fenômenos. Traduz-se por um número real compreendido de 0 ( zero) e 1 ( um).

INTRODUÇÃO À PROBABILIDADE. A probabilidade é uma medida da incerteza dos fenômenos. Traduz-se por um número real compreendido de 0 ( zero) e 1 ( um). INTRODUÇÃO À PROILIDDE teora das probabldade nada mas é do que o bom senso transformado em cálculo probabldade é o suporte para os estudos de estatístca e expermentação. Exemplos: O problema da concdênca

Leia mais

7 - Distribuição de Freqüências

7 - Distribuição de Freqüências 7 - Dstrbução de Freqüêncas 7.1 Introdução Em mutas áreas há uma grande quantdade de nformações numércas que precsam ser dvulgadas de forma resumda. O método mas comum de resumr estes dados numércos consste

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Prof. Lorí Val, Dr. UFRG Insttuto de Matemátca

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ 1 É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Numa relação expermental os valores de uma das

Leia mais

Estatística II Antonio Roque Aula 18. Regressão Linear

Estatística II Antonio Roque Aula 18. Regressão Linear Estatístca II Antono Roque Aula 18 Regressão Lnear Quando se consderam duas varáves aleatóras ao mesmo tempo, X e Y, as técncas estatístcas aplcadas são as de regressão e correlação. As duas técncas estão

Leia mais

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma Capítulo 8 Dferencação Numérca Quase todos os métodos numércos utlzados atualmente para obtenção de soluções de equações erencas ordnáras e parcas utlzam algum tpo de aproxmação para as dervadas contínuas

Leia mais

Representação e Descrição de Regiões

Representação e Descrição de Regiões Depos de uma magem ter sdo segmentada em regões é necessáro representar e descrever cada regão para posteror processamento A escolha da representação de uma regão envolve a escolha dos elementos que são

Leia mais

Q 1-1,5(Q3-Q1) < X i < Q 3 + 1,5(Q 3 -Q 1 ) Q 3 +1,5(Q 3 -Q 1 ) < X i < Q 3 +3(Q 3 -Q 1 ) Q 1 3(Q 3 -Q 1 ) < X i < Q 1 1,5(Q 3 -Q 1 )

Q 1-1,5(Q3-Q1) < X i < Q 3 + 1,5(Q 3 -Q 1 ) Q 3 +1,5(Q 3 -Q 1 ) < X i < Q 3 +3(Q 3 -Q 1 ) Q 1 3(Q 3 -Q 1 ) < X i < Q 1 1,5(Q 3 -Q 1 ) DIGRM OX-PLOT E CRCTERIZÇÃO DE OUTLIERS E VLORES EXTREMOS Outlers e valores extremos são aqueles que estão muto afastados do centro da dstrbução. Uma forma de caracterzá-los é através do desenho esquemátco

Leia mais

2 Lógica Fuzzy Introdução

2 Lógica Fuzzy Introdução 2 Lógca Fuzzy 2.. Introdução A lógca fuzzy é uma extensão da lógca booleana, ntroduzda pelo Dr. Loft Zadeh da Unversdade da Calfórna / Berkeley no ano 965. Fo desenvolvda para expressar o conceto de verdade

Leia mais

O problema da superdispersão na análise de dados de contagens

O problema da superdispersão na análise de dados de contagens O problema da superdspersão na análse de dados de contagens 1 Uma das restrções mpostas pelas dstrbuções bnomal e Posson, aplcadas usualmente na análse de dados dscretos, é que o parâmetro de dspersão

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Introdução Aprendzagem de Máquna Alessandro L. Koerch Redes Bayesanas A suposção Naïve Bayes da ndependênca condconal (a 1,...a n são condconalmente ndependentes dado o valor alvo v): Reduz a complexdade

Leia mais

1. CORRELAÇÃO E REGRESSÃO LINEAR

1. CORRELAÇÃO E REGRESSÃO LINEAR 1 CORRELAÇÃO E REGREÃO LINEAR Quando deseja-se estudar se exste relação entre duas varáves quanttatvas, pode-se utlzar a ferramenta estatístca da Correlação Lnear mples de Pearson Quando essa correlação

Leia mais

Estatística I Licenciatura MAEG 2006/07

Estatística I Licenciatura MAEG 2006/07 Estatístca I Lcencatura MAEG 006/07 AMOSTRAGEM. DISTRIBUIÇÕES POR AMOSTRAGEM.. Em determnada unversdade verfca-se que 30% dos alunos têm carro. Seleccona-se uma amostra casual smples de 0 alunos. a) Qual

Leia mais

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

DEFINIÇÃO - MODELO LINEAR GENERALIZADO DEFINIÇÃO - MODELO LINEAR GENERALIZADO 1 Um modelo lnear generalzado é defndo pelos seguntes três componentes: Componente aleatóro; Componente sstemátco; Função de lgação; Componente aleatóro: Um conjunto

Leia mais

3 Subtração de Fundo Segmentação por Subtração de Fundo

3 Subtração de Fundo Segmentação por Subtração de Fundo 3 Subtração de Fundo Este capítulo apresenta um estudo sobre algortmos para a detecção de objetos em movmento em uma cena com fundo estátco. Normalmente, estas cenas estão sob a nfluênca de mudanças na

Leia mais

Identidade dos parâmetros de modelos segmentados

Identidade dos parâmetros de modelos segmentados Identdade dos parâmetros de modelos segmentados Dana Campos de Olvera Antono Polcarpo Souza Carnero Joel Augusto Munz Fabyano Fonseca e Slva 4 Introdução No Brasl, dentre os anmas de médo porte, os ovnos

Leia mais

Reconhecimento de Padrões

Reconhecimento de Padrões Capítulo 2 Reconhecmento de Padrões 2.1 O que é reconhecmento de padrões? Há duas maneras de se reconhecer e/ou classfcar um padrão [CONNEL, S. D. & JAIN, A. K. (2001)]: () classfcação supervsonada: o

Leia mais

Classificação de Padrões

Classificação de Padrões Classfcação de Padrões Introdução Classfcadores Paramétrcos Classfcadores Sem-paramétrcos Redução da Dmensonaldade Teste de Sgnfcânca 6.345 Sstema de Reconhecmento de Voz Teora Acústca da Produção de Voz

Leia mais

IMPLEMENTAÇÃO DO MÉTODO DE FATORAÇÃO DE INTEIROS CRIVO QUADRÁTICO

IMPLEMENTAÇÃO DO MÉTODO DE FATORAÇÃO DE INTEIROS CRIVO QUADRÁTICO IMPLEMENTAÇÃO DO MÉTODO DE FATORAÇÃO DE INTEIROS CRIVO QUADRÁTICO Alne de Paula Sanches 1 ; Adrana Betâna de Paula Molgora 1 Estudante do Curso de Cênca da Computação da UEMS, Undade Unverstára de Dourados;

Leia mais

Contabilometria. Aula 8 Regressão Linear Simples

Contabilometria. Aula 8 Regressão Linear Simples Contalometra Aula 8 Regressão Lnear Smples Orgem hstórca do termo Regressão Le da Regressão Unversal de Galton 1885 Galton verfcou que, apesar da tendênca de que pas altos tvessem flhos altos e pas axos

Leia mais

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha) Estatístca p/ Admnstração II - Profª Ana Cláuda Melo Undade : Probabldade Aula: 3 Varável Aleatóra. Varáves Aleatóras Ao descrever um espaço amostral de um expermento, não especfcamos que um resultado

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial INF 77 Intelgênca Artfcal Aula 8 Redes Neuras Edrle Soares de Lma Formas de Aprendzado Aprendzado Supervsonado Árvores de decsão. K-Nearest Neghbor (KNN). Support Vector Machnes (SVM).

Leia mais

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média. Estatístca Dscplna de Estatístca 0/ Curso de Admnstração em Gestão Públca Profª. Me. Valéra Espíndola Lessa e-mal: lessavalera@gmal.com Meddas de Dspersão Indcam se os dados estão, ou não, prómos uns dos

Leia mais

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média. Estatístca Dscplna de Estatístca 0/ Curso Superor de tecnólogo em Gestão Ambental Profª. Me. Valéra Espíndola Lessa e-mal: lessavalera@gmal.com Meddas de Dspersão Indcam se os dados estão, ou não, prómos

Leia mais

2 Incerteza de medição

2 Incerteza de medição 2 Incerteza de medção Toda medção envolve ensaos, ajustes, condconamentos e a observação de ndcações em um nstrumento. Este conhecmento é utlzado para obter o valor de uma grandeza (mensurando) a partr

Leia mais

CORRELAÇÃO E REGRESSÃO

CORRELAÇÃO E REGRESSÃO CORRELAÇÃO E REGRESSÃO Constata-se, freqüentemente, a estênca de uma relação entre duas (ou mas) varáves. Se tal relação é de natureza quanttatva, a correlação é o nstrumento adequado para descobrr e medr

Leia mais

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES 1. Obtenha os estmadores dos coefcentes lnear e angular de um modelo de regressão lnear smples utlzando o método

Leia mais

2 Principio do Trabalho Virtual (PTV)

2 Principio do Trabalho Virtual (PTV) Prncpo do Trabalho rtual (PT)..Contnuo com mcroestrutura Na teora que leva em consderação a mcroestrutura do materal, cada partícula anda é representada por um ponto P, conforme Fgura. Porém suas propredades

Leia mais

PROBABILIDADE - CONCEITOS BÁSICOS

PROBABILIDADE - CONCEITOS BÁSICOS ROBBILIDD - CONCITOS BÁSICOS xpermento leatóro é um expermento no qual: todos os possíves resultados são conhecdos; resulta num valor desconhecdo, dentre todos os resultados possíves; pode ser repetdo

Leia mais

Programa de Certificação de Medidas de um laboratório

Programa de Certificação de Medidas de um laboratório Programa de Certfcação de Meddas de um laboratóro Tratamento de dados Elmnação de dervas Programa de calbração entre laboratóros Programa nterno de calbração justes de meddas a curvas Tratamento dos resultados

Leia mais

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 014 Estatístca Descrtva e Análse Exploratóra Etapas ncas. Utlzadas para descrever e resumr os dados. A dsponbldade de uma grande quantdade de dados e de

Leia mais

Estudo e Previsão da Demanda de Energia Elétrica. Parte II

Estudo e Previsão da Demanda de Energia Elétrica. Parte II Unversdade Federal de Paraná Setor de Tecnologa Departamento de Engenhara Elétrca Estudo e Prevsão da Demanda de Energa Elétrca Parte II Prof: Clodomro Unshuay-Vla Etapas de um Modelo de Prevsão Objetvo

Leia mais

AULA EXTRA Análise de Regressão Logística

AULA EXTRA Análise de Regressão Logística 1 AULA EXTRA Análse de Regressão Logístca Ernesto F. L. Amaral 13 de dezembro de 2012 Metodologa de Pesqusa (DCP 854B) VARIÁVEL DEPENDENTE BINÁRIA 2 O modelo de regressão logístco é utlzado quando a varável

Leia mais

Laboratório de Mecânica Aplicada I Estática: Roldanas e Equilíbrio de Momentos

Laboratório de Mecânica Aplicada I Estática: Roldanas e Equilíbrio de Momentos Laboratóro de Mecânca Aplcada I Estátca: Roldanas e Equlíbro de Momentos 1 Introdução O conhecmento das condções de equlíbro de um corpo é mprescndível em númeras stuações. Por exemplo, o estudo do equlíbro

Leia mais

R X. X(s) Y Y(s) Variáveis aleatórias discretas bidimensionais

R X. X(s) Y Y(s) Variáveis aleatórias discretas bidimensionais 30 Varáves aleatóras bdmensonas Sea ε uma experênca aleatóra e S um espaço amostral assocado a essa experênca. Seam X X(s) e Y Y(s) duas funções cada uma assocando um número real a cada resultado s S.

Leia mais

Análise de influência

Análise de influência Análse de nfluênca Dzemos que uma observação é nfluente caso ela altere, de forma substancal, alguma propredade do modelo ajustado (como as estmatvas dos parâmetros, seus erros padrões, valores ajustados...).

Leia mais

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos Curso de extensão, MMQ IFUSP, feverero/4 Alguns exercíco báscos I Exercícos (MMQ) Uma grandeza cujo valor verdadero x é desconhecdo, fo medda três vezes, com procedmentos expermentas dêntcos e, portanto,

Leia mais

Diferença entre a classificação do PIB per capita e a classificação do IDH

Diferença entre a classificação do PIB per capita e a classificação do IDH Curso Bem Estar Socal Marcelo Ner - www.fgv.br/cps Metas Socas Entre as mutas questões decorrentes da déa de se mplementar uma proposta de metas socas temos: Qual a justfcatva econômca para a exstênca

Leia mais

18 e 20/Abr/2016 Aulas 12 e 13. Introdução à Física Estatística Postulados Equilíbrio térmico Função de Partição; propriedades termodinâmicas

18 e 20/Abr/2016 Aulas 12 e 13. Introdução à Física Estatística Postulados Equilíbrio térmico Função de Partição; propriedades termodinâmicas 01/Abr/2016 Aula 11 Potencas termodnâmcos Energa nterna total Entalpa Energas lvres de Helmholtz e de Gbbs Relações de Maxwell 18 e 20/Abr/2016 Aulas 12 e 13 Introdução à Físca Estatístca Postulados Equlíbro

Leia mais

Análise de Regressão

Análise de Regressão Análse de Regressão método estatístco que utlza relação entre duas ou mas varáves de modo que uma varável pode ser estmada (ou predta) a partr da outra ou das outras Neter, J. et al. Appled Lnear Statstcal

Leia mais

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EATAS DEPARTAMENTO DE ESTATÍSTICA UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

Leia mais

NOTA II TABELAS E GRÁFICOS

NOTA II TABELAS E GRÁFICOS Depto de Físca/UFMG Laboratóro de Fundamentos de Físca NOTA II TABELAS E GRÁFICOS II.1 - TABELAS A manera mas adequada na apresentação de uma sére de meddas de um certo epermento é através de tabelas.

Leia mais

4 Reconhecimento de Padrões

4 Reconhecimento de Padrões 46 4 Reconhecmento de Padrões Este capítulo apresenta de forma lustrada os concetos báscos do Reconhecmento de Padrões e vsa mostrar o potencal desta ferramenta em dversas aplcações. Trata-se de um texto

Leia mais

Análise de Regressão Linear Múltipla VII

Análise de Regressão Linear Múltipla VII Análse de Regressão Lnear Múltpla VII Aula 1 Hej et al., 4 Seções 3. e 3.4 Hpótese Lnear Geral Seja y = + 1 x 1 + x +... + k x k +, = 1,,..., n. um modelo de regressão lnear múltpla, que pode ser escrto

Leia mais

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA CAPÍTULO DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA. A MÉDIA ARITMÉTICA OU PROMÉDIO Defnção: é gual a soma dos valores do grupo de dados dvdda pelo número de valores. X x Soma dos valores de x número de

Leia mais

Estudo comparativo entre redes neurais artificiais e análise de regressão múltipla na avaliação de bens, para pequenas amostragens

Estudo comparativo entre redes neurais artificiais e análise de regressão múltipla na avaliação de bens, para pequenas amostragens Estudo comparatvo entre redes neuras artfcas e análse de regressão múltpla na avalação de bens, para pequenas amostragens Elane Hasselmann Camardella Schavo (CEFET/RJ) elane@consultora-cca.com.br Márco

Leia mais

UM NOVO MÉTODO KERNEL PARA A ANÁLISE DISCRIMINANTE DE SEQUÊNCIAS BIOLÓGICAS

UM NOVO MÉTODO KERNEL PARA A ANÁLISE DISCRIMINANTE DE SEQUÊNCIAS BIOLÓGICAS UM NOVO MÉTODO KERNEL PARA A ANÁLISE DISCRIMINANTE DE SEQUÊNCIAS BIOLÓGICAS RAUL FONSECA NETO Departamento de Cênca da Computação UFJF raulfonsecaneto@g.com.br VICTOR S. DE A. MENESES Programa de Pós-Graduação

Leia mais

Estatística. 8 Teste de Aderência. UNESP FEG DPD Prof. Edgard

Estatística. 8 Teste de Aderência. UNESP FEG DPD Prof. Edgard Estatístca 8 Teste de Aderênca UNESP FEG DPD Prof. Edgard 011 8-1 Teste de Aderênca IDÉIA: descobrr qual é a Dstrbução de uma Varável Aleatóra X, a partr de uma amostra: {X 1, X,..., X n } Problema: Seja

Leia mais

Análise de Variância. Comparação de duas ou mais médias

Análise de Variância. Comparação de duas ou mais médias Análse de Varânca Comparação de duas ou mas médas Análse de varânca com um fator Exemplo Um expermento fo realzado para se estudar dabetes gestaconal. Desejava-se avalar o comportamento da hemoglobna (HbA)

Leia mais

AEP FISCAL ESTATÍSTICA

AEP FISCAL ESTATÍSTICA AEP FISCAL ESTATÍSTICA Módulo 11: Varáves Aleatóras (webercampos@gmal.com) VARIÁVEIS ALEATÓRIAS 1. Conceto de Varáves Aleatóras Exemplo: O expermento consste no lançamento de duas moedas: X: nº de caras

Leia mais

PRESSUPOSTOS DO MODELO DE REGRESSÃO

PRESSUPOSTOS DO MODELO DE REGRESSÃO PREUPOTO DO MODELO DE REGREÃO A aplcação do modelo de regressão lnear múltpla (bem como da smples) pressupõe a verfcação de alguns pressupostos que condensamos segudamente.. Os erros E são varáves aleatóras

Leia mais

MÉTODOS MULTIVARIADOS. Rodrigo A. Scarpel

MÉTODOS MULTIVARIADOS. Rodrigo A. Scarpel MÉTODOS MULTIVARIADOS Rodrgo A. Scarpel rodrgo@ta.br www.mec.ta.br/~rodrgo INTRODUÇÃO Semana Conteúdo Introdução aos métodos multvarados 1 Análse de componentes prncpas Aplcações de análse de componentes

Leia mais

ALGORITMOS PARA RECONHECIMENTO DE PADRÕES

ALGORITMOS PARA RECONHECIMENTO DE PADRÕES ALGORITMOS PARA RECONHECIMENTO DE PADRÕES ARMANDO ANTONIO MONTEIRO DE CASTRO PEDRO PAULO LEITE DO PRADO Departamento de Engenhara Elétrca Unversdade de Taubaté RESUMO O obetvo prncpal desse trabalho fo

Leia mais

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 1

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 1 FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 1 Nome Nº Turma: Data: / / Professor 10.º Ano Classfcação Apresente o seu racocíno de forma clara, ndcando todos os cálculos que tver de efetuar e todas

Leia mais

Notas Processos estocásticos. Nestor Caticha 23 de abril de 2012

Notas Processos estocásticos. Nestor Caticha 23 de abril de 2012 Notas Processos estocástcos Nestor Catcha 23 de abrl de 2012 notas processos estocástcos 2 O Teorema de Perron Frobenus para matrzes de Markov Consdere um processo estocástco representado por um conunto

Leia mais

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas 3.6. Análse descrtva com dados agrupados Em algumas stuações, os dados podem ser apresentados dretamente nas tabelas de frequêncas. Netas stuações devemos utlzar estratégas específcas para obter as meddas

Leia mais

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA Análse de Regressão Profa Alcone Mranda dos Santos Departamento de Saúde Públca UFMA Introdução Uma das preocupações estatístcas ao analsar dados, é a de crar modelos que explctem estruturas do fenômeno

Leia mais

Teoria da Regressão Espacial Aplicada a. Sérgio Alberto Pires da Silva

Teoria da Regressão Espacial Aplicada a. Sérgio Alberto Pires da Silva Teora da Regressão Espacal Aplcada a Modelos Genércos Sérgo Alberto Pres da Slva ITENS DE RELACIONAMENTOS Tópcos Báscos da Regressão Espacal; Banco de Dados Geo-Referencados; Modelos Genércos Robustos;

Leia mais

Capítulo 1. Exercício 5. Capítulo 2 Exercício

Capítulo 1. Exercício 5. Capítulo 2 Exercício UNIVERSIDADE FEDERAL DE GOIÁS CIÊNCIAS ECONÔMICAS ECONOMETRIA (04-II) PRIMEIRA LISTA DE EXERCÍCIOS Exercícos do Gujarat Exercíco 5 Capítulo Capítulo Exercíco 3 4 5 7 0 5 Capítulo 3 As duas prmeras demonstrações

Leia mais

Gabarito da Lista de Exercícios de Econometria I

Gabarito da Lista de Exercícios de Econometria I Gabarto da sta de Exercícos de Econometra I Professor: Rogéro lva Mattos Montor: eonardo enrque A. lva Questão Y X y x xy x ŷ ˆ ˆ y ŷ (Y - Y ) (X - X ) (Ŷ - Y ) 360 00-76 -00 35.00 40.000 36-4 30.976 3076

Leia mais

Estudo quantitativo do processo de tomada de decisão de um projeto de melhoria da qualidade de ensino de graduação.

Estudo quantitativo do processo de tomada de decisão de um projeto de melhoria da qualidade de ensino de graduação. Estudo quanttatvo do processo de tomada de decsão de um projeto de melhora da qualdade de ensno de graduação. Rogéro de Melo Costa Pnto 1, Rafael Aparecdo Pres Espíndula 2, Arlndo José de Souza Júnor 1,

Leia mais

2 Agregação Dinâmica de Modelos de Turbinas e Reguladores de Velocidade: Teoria

2 Agregação Dinâmica de Modelos de Turbinas e Reguladores de Velocidade: Teoria Agregação Dnâmca de Modelos de urbnas e Reguladores de elocdade: eora. Introdução O objetvo da agregação dnâmca de turbnas e reguladores de velocdade é a obtenção dos parâmetros do modelo equvalente, dados

Leia mais

INSTITUTO POLITÉCNICO DE VISEU ESCOLA SUPERIOR DE TECNOLOGIA E GESTÃO

INSTITUTO POLITÉCNICO DE VISEU ESCOLA SUPERIOR DE TECNOLOGIA E GESTÃO Área Centfca Curso Matemátca Engenhara Electrotécnca º Semestre º 00/0 Fcha nº 9. Um artgo da revsta Wear (99) apresenta dados relatvos à vscosdade do óleo e ao desgaste do aço maco. A relação entre estas

Leia mais

Roteiro-Relatório da Experiência N o 4 CARACTERÍSTICAS DO TRANSISTOR BIPOLAR

Roteiro-Relatório da Experiência N o 4 CARACTERÍSTICAS DO TRANSISTOR BIPOLAR PROF.: Joaqum Rangel Codeço Rotero-Relatóro da Experênca N o 4 CARACTERÍSTICAS DO TRANSISTOR BIPOLAR 1. COMPONENTES DA EQUIPE: ALUNOS 1 2 NOTA Prof.: Joaqum Rangel Codeço Data: / / : hs 2. OBJETIVOS: 2.1.

Leia mais

5 Métodos de cálculo do limite de retenção em função da ruína e do capital inicial

5 Métodos de cálculo do limite de retenção em função da ruína e do capital inicial 5 Métodos de cálculo do lmte de retenção em função da ruína e do captal ncal Nesta dssertação serão utlzados dos métodos comparatvos de cálculo de lmte de retenção, onde ambos consderam a necessdade de

Leia mais

8.16. Experimentos Fatoriais e o Fatorial Fracionado

8.16. Experimentos Fatoriais e o Fatorial Fracionado 8.6. Expermentos Fatoras e o Fatoral Fraconado Segundo Kng (995) os arranos fatoras e fatoral fraconado estão dentre os arranos mas usados em expermentos ndustras. Veremos aqu alguns casos mas geras e

Leia mais

Elementos de Estatística e Probabilidades II

Elementos de Estatística e Probabilidades II Elementos de Estatístca e Probabldades II Varáves e Vetores Aleatóros dscretos Inês Das 203 O prncpal objetvo da deste documento é fornecer conhecmentos báscos de varáves aleatóras dscretas e pares aleatóros

Leia mais

Mecanismos de Escalonamento

Mecanismos de Escalonamento Mecansmos de Escalonamento 1.1 Mecansmos de escalonamento O algortmo de escalonamento decde qual o próxmo pacote que será servdo na fla de espera. Este algortmo é um dos mecansmos responsáves por dstrbur

Leia mais

Algarismos Significativos Propagação de Erros ou Desvios

Algarismos Significativos Propagação de Erros ou Desvios Algarsmos Sgnfcatvos Propagação de Erros ou Desvos L1 = 1,35 cm; L = 1,3 cm; L3 = 1,30 cm L4 = 1,4 cm; L5 = 1,7 cm. Qual destas meddas está correta? Qual apresenta algarsmos com sgnfcado? O nstrumento

Leia mais

2 Máquinas de Vetor Suporte 2.1. Introdução

2 Máquinas de Vetor Suporte 2.1. Introdução Máqunas de Vetor Suporte.. Introdução Os fundamentos das Máqunas de Vetor Suporte (SVM) foram desenvolvdos por Vapnk e colaboradores [], [3], [4]. A formulação por ele apresentada se basea no prncípo de

Leia mais

PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 2010/2011

PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 2010/2011 Instruções: PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 00/0 Cada uestão respondda corretamente vale (um) ponto. Cada uestão respondda ncorretamente vale - (menos um) ponto. Cada uestão

Leia mais

Neste capítulo abordam-se os principais conceitos relacionados com os cálculos de estatísticas, histogramas e correlação entre imagens digitais.

Neste capítulo abordam-se os principais conceitos relacionados com os cálculos de estatísticas, histogramas e correlação entre imagens digitais. 1 1Imagem Dgtal: Estatístcas INTRODUÇÃO Neste capítulo abordam-se os prncpas concetos relaconados com os cálculos de estatístcas, hstogramas e correlação entre magens dgtas. 4.1. VALOR MÉDIO, VARIÂNCIA,

Leia mais

CAPÍTULO VI Introdução ao Método de Elementos Finitos (MEF)

CAPÍTULO VI Introdução ao Método de Elementos Finitos (MEF) PMR 40 - Mecânca Computaconal CAPÍTULO VI Introdução ao Método de Elementos Fntos (MEF). Formulação Teórca - MEF em uma dmensão Consderemos a equação abao que representa a dstrbução de temperatura na barra

Leia mais

NOTAS DE AULA DA DISCIPLINA CE076

NOTAS DE AULA DA DISCIPLINA CE076 5. COMPONENTES PRINCIPAIS 5. Introdução A análse de Comonentes Prncas está relaconada com a exlcação da estrutura de covarânca or meo de oucas combnações lneares das varáves orgnas em estudo, ou sea, rocura

Leia mais

Mecânica Estatística. - Leis da Física Macroscópica - Propriedades dos sistemas macroscópicos

Mecânica Estatística. - Leis da Física Macroscópica - Propriedades dos sistemas macroscópicos Mecânca Estatístca Tal como a Termodnâmca Clássca, também a Mecânca Estatístca se dedca ao estudo das propredades físcas dos sstemas macroscópcos. Tratase de sstemas com um número muto elevado de partículas

Leia mais

Introdução e Organização de Dados Estatísticos

Introdução e Organização de Dados Estatísticos II INTRODUÇÃO E ORGANIZAÇÃO DE DADOS ESTATÍSTICOS 2.1 Defnção de Estatístca Uma coleção de métodos para planejar expermentos, obter dados e organzá-los, resum-los, analsá-los, nterpretá-los e deles extrar

Leia mais

Palavras-Chave: Métodos Interativos da Potência e Inverso, Sistemas Lineares, Autovetores e Autovalores.

Palavras-Chave: Métodos Interativos da Potência e Inverso, Sistemas Lineares, Autovetores e Autovalores. MSc leandre Estáco Féo ssocação Educaconal Dom Bosco - Faculdade de Engenhara de Resende Caa Postal 8.698/87 - CEP 75-97 - Resende - RJ Brasl Professor e Doutorando de Engenhara aefeo@yahoo.com.br Resumo

Leia mais

4 Análise de confiabilidade de estruturas

4 Análise de confiabilidade de estruturas 4 Análse de confabldade de estruturas Nos prmórdos da engenhara cvl, o desconhecmento técnco-centífco conduza a proetos excessvamente seguros, mas em contrapartda de custo muto elevado. Hoe em da, o progresso

Leia mais

Introdução a Combinatória- Aplicações, parte II

Introdução a Combinatória- Aplicações, parte II Introdução a Combnatóra- Aplcações, AULA 7 7.1 Introdução Nesta aula vamos estudar aplcações um pouco dferentes das da aula passada. No caso estudaremos arranjos com repetção, permutações crculares e o

Leia mais

O QUEBRA-CABEÇA DE LANGFORD

O QUEBRA-CABEÇA DE LANGFORD O QUEBRA-CABEÇA DE LANGFORD Mateus Mendes Magela Unversdade Federal do Espírto Santo mateusmendes.m@uol.com.br Resumo: O Quebra-Cabeça de Langford é um passatempo muto atraente e sufcentemente engenhoso

Leia mais

PUCPR- Pontifícia Universidade Católica Do Paraná PPGIA- Programa de Pós-Graduação Em Informática Aplicada PROF. DR. JACQUES FACON

PUCPR- Pontifícia Universidade Católica Do Paraná PPGIA- Programa de Pós-Graduação Em Informática Aplicada PROF. DR. JACQUES FACON 1 PUCPR- Pontfíca Unversdade Católca Do Paraná PPGIA- Programa de Pós-Graduação Em Informátca Aplcada PROF. DR. JACQUES FACON LIMIARIZAÇÃO ITERATIVA DE LAM E LEUNG Resumo: A proposta para essa sére de

Leia mais

Arquiteturas de Redes Neurais Aplicadas a Data Mining no Mercado Financeiro Uma Aplicação para a Geração de Credit Ratings

Arquiteturas de Redes Neurais Aplicadas a Data Mining no Mercado Financeiro Uma Aplicação para a Geração de Credit Ratings Proceedngs of the V Brazlan Conference on Neural Networks - V Congresso Braslero de Redes Neuras pp. 5 20, Aprl 2 5, 200 - Ro de Janero - RJ - Brazl Arquteturas de Redes Neuras Aplcadas a Data Mnng no

Leia mais

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel MOQ-14 PROJETO e ANÁLISE de EPERIMENTOS Professor: Rodrgo A. Scarpel rodrgo@ta.br www.mec.ta.br/~rodrgo Prncípos de cração de modelos empírcos: Modelos (matemátcos, lógcos, ) são comumente utlzados na

Leia mais

Identificação de curvas de carga diária típicas com uso de Mapa de Kohonen e Fuzzy C-Means

Identificação de curvas de carga diária típicas com uso de Mapa de Kohonen e Fuzzy C-Means Identfcação de curvas de carga dára típcas com uso de Mapa de Kohonen e Fuzzy C-Means Nelson R. de Albuquerque, Douglas A. A. de Faras Pontfíca Unversdade Católca do Ro de Janero Departamento de Engenhara

Leia mais

Filtros são dispositivos seletivos em freqüência usados para limitar o espectro de um sinal a um determinado intervalo de freqüências.

Filtros são dispositivos seletivos em freqüência usados para limitar o espectro de um sinal a um determinado intervalo de freqüências. 1 Fltros são dspostvos seletvos em freqüênca usados para lmtar o espectro de um snal a um determnado ntervalo de freqüêncas. A resposta em freqüênca de um fltro é caracterzada por uma faxa de passagem

Leia mais

Eletromagnetismo Aplicado

Eletromagnetismo Aplicado letromagnetsmo Aplcado Undade 5 Propagação de Ondas letromagnétcas em Meos Ilmtados e Polaração Prof. Marcos V. T. Heckler Propagação de Ondas letromagnétcas e Polaração 1 Conteúdo Defnções e parâmetros

Leia mais

ANÁLISE DA VARIÂNCIA DA REGRESSÃO

ANÁLISE DA VARIÂNCIA DA REGRESSÃO ANÁLISE DA VARIÂNCIA DA REGRESSÃO PROCEDIMENTO GERAL DE REGRESSÃO Em um modelo de análse de varânca, como no DIA, o fator em estudo pode ser quanttatvo ou qualtatvo. FATOR QUANTITATIVO: é aquele cujos

Leia mais

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu 1 Programação Não Lnear com Restrções Aula 9: Programação Não-Lnear - Funções de Váras Varáves com Restrções Ponto Regular; Introdução aos Multplcadores de Lagrange; Multplcadores de Lagrange e Condções

Leia mais

2 ENERGIA FIRME DE SISTEMAS HIDRELÉTRICOS

2 ENERGIA FIRME DE SISTEMAS HIDRELÉTRICOS ENERGIA FIRME DE SISTEMAS HIDRELÉTRICOS 22 2 ENERGIA FIRME DE SISTEMAS HIDRELÉTRICOS Como vsto no capítulo 1, a energa frme de uma usna hdrelétrca corresponde à máxma demanda que pode ser suprda contnuamente

Leia mais

CAPITULO II - FORMULAÇAO MATEMATICA

CAPITULO II - FORMULAÇAO MATEMATICA CAPITULO II - FORMULAÇAO MATEMATICA II.1. HIPOTESES BASICAS A modelagem aqu empregada está baseado nas seguntes hpóteses smplfcadoras : - Regme permanente; - Ausênca de forças de campo; - Ausênca de trabalho

Leia mais

4 Sistemas de partículas

4 Sistemas de partículas 4 Sstemas de partículas Nota: será feta a segunte convenção: uma letra em bold representa um vector,.e. b b Nesta secção estudaremos a generalzação das les de Newton a um sstema de váras partículas e as

Leia mais

Realimentação negativa em ampliadores

Realimentação negativa em ampliadores Realmentação negatva em ampladores 1 Introdução necessdade de amplfcadores com ganho estável em undades repetdoras em lnhas telefôncas levou o Eng. Harold Black à cração da técnca denomnada realmentação

Leia mais

MEDIDAS DE TENDÊNCIA CENTRAL

MEDIDAS DE TENDÊNCIA CENTRAL 3.1- Introdução. ESTATÍSTICA MEDIDAS DE TENDÊNCIA CENTRAL Como na representação tabular e gráfca dos dados a Estatístca Descrtva consste num conjunto de métodos que ensnam a reduzr uma quantdade de dados

Leia mais

x Ex: A tabela abaixo refere-se às notas finais de três turmas de estudantes. Calcular a média de cada turma:

x Ex: A tabela abaixo refere-se às notas finais de três turmas de estudantes. Calcular a média de cada turma: Professora Janete Perera Amador 1 8 Meddas Descrtvas Vmos anterormente que um conjunto de dados pode ser resumdo através de uma dstrbução de freqüêncas, e que esta pode ser representada através de uma

Leia mais

FAAP APRESENTAÇÃO (1)

FAAP APRESENTAÇÃO (1) ARESENTAÇÃO A Estatístca é uma cênca que organza, resume e smplfca nformações, além de analsá-las e nterpretá-las. odemos dvdr a Estatístca em três grandes campos:. Estatístca Descrtva- organza, resume,

Leia mais

AVALIAÇÃO NA PRECISÃO DE RECEPTORES GPS PARA O POSICIONAMENTO ABSOLUTO RESUMO ABSTRACT

AVALIAÇÃO NA PRECISÃO DE RECEPTORES GPS PARA O POSICIONAMENTO ABSOLUTO RESUMO ABSTRACT AVALIAÇÃO NA PRECISÃO DE RECEPTORES GPS PARA O POSICIONAMENTO ABSOLUTO Rodrgo Mkosz Gonçalves John Alejandro Ferro Sanhueza Elmo Leonardo Xaver Tanajura Dulana Leandro Unversdade Federal do Paraná - UFPR

Leia mais