CATEGORIZAÇÃO AUTOMÁTICA DE ARTIGOS CIENTÍFICOS DA ENGENHARIA DE PRODUÇÃO UTILIZANDO MÉTODOS DE APRENDIZAGEM DE MÁQUINA
|
|
- Olívia Godoi Carvalho
- 5 Há anos
- Visualizações:
Transcrição
1 CATEGORIZAÇÃO AUTOMÁTICA DE ARTIGOS CIENTÍFICOS DA ENGENHARIA DE PRODUÇÃO UTILIZANDO MÉTODOS DE APRENDIZAGEM DE MÁQUINA FERNANDO JOSE FERREIRA ANDINOS JUNIOR (UCAM) GEOGIA REGINA RODRIGUES GOMES (UCAM) Este artgo apresenta três métodos tradconas de aprendzagem de máquna (Naïve Bayes, k-nn e SVM) e propõe um método de grupo para realzar a categorzação de artgos da área de Engenhara de Produção, com o objetvo de auxlar alunos ee professores na escolha da melhor área para submssão de trabalhos. Para sso, os métodos utlzados baseam-se no conteúdo textual do documento, tendo como nsumo de aprendzagem, artgos prevamente publcados em anas de dos dos prncpas congressos de Engenhara de Produção, o ENEGEP e o SIMPEP. Baseado nos resultados expermentas apresentados, o método de grupo proposto obteve melhor desempenho nas métrcas defndas (acuráca, precsão e abrangênca) que os métodos tradconas soladamente. Os prncpas fatores para a elaboração desse trabalho foram a dfculdade exposta por alunos e professores em algumas vezes escolher a área de submssão mas adequada para seus trabalhos, somado ao crescmento observado no número de artgos publcados nesses congressos nos últmos anos. Espera-se que este trabalho contrbua para o crescmento, organzação e qualdade da produção centífca em Engenhara de Produção no Brasl. Palavras-chaves: categorzação de documentos, mneração de texto, gestão do conhecmento
2 1. Introdução O Brasl atualmente possu 486 cursos de graduação em Engenhara de Produção reconhecdos pelo MEC (NUPENGE, 2012) e 58 cursos de pós-graduação strctu-senso recomendados pela CAPES (CAPES, 2012). Além de atender a demanda crescente do mercado de trabalho, boa parcela desses ndvíduos contrbu para produção centífca, gerada prncpalmente por professores e alunos de pós-graduação. A escolha da melhor área para submssão de artgos centífcos em congressos de uma área abrangente e multdscplnar como a Engenhara de Produção, que atualmente dvde-se em 11 áreas de conhecmento, subdvddas em 58 subáreas conforme ABEPRO (2012), pode não ser trval. Dante dsso, professores e alunos em alguns momentos demonstram dfculdade em decdr a área mas adequada. Então, se exstsse uma ferramenta que baseada no conteúdo textual, os auxlasse sugerndo a área mas aproprada para submssão do artgo, a probabldade de acetação aumentara, pos seram dreconados a avaladores mas ndcados. Além dsso, uma vez aprovado e categorzado na área mas aderente ao seu conteúdo, o trabalho tera melhor dvulgação e atngra o públco esperado pelos autores. O objetvo deste trabalho é utlzar técncas de aprendzagem de máquna (machne learnng), ramo da ntelgênca artfcal responsável por desenvolver métodos que permtam ao computador aprender, para que a partr de artgos prevamente categorzados, consga-se predzer a categora de novos artgos, auxlando os autores na escolha da melhor área de submssão em congressos da Engenhara de Produção. Este trabalho está organzado em cnco seções segudas de bblografa. Na seção 2, é apresentado o conceto de categorzação automátca de textos. A seção 3 descreve a metodologa com os passos realzados no expermento e as métrcas de desempenho utlzadas. Na seção 4, os resultados são apresentados e analsados e a seção 5 apresenta as conclusões. 2. Categorzação de textos A categorzação de textos é a atrbução de documentos escrtos em lnguagem natural em categoras pré-defndas de acordo com o seu conteúdo (SEBASTIANI, 2002). Apesar do estudo da categorzação automátca de textos ter ncado nos anos 60 com Maron e Kuns (1961), a partr da década de 90 que esse campo vem se desenvolvendo devdo ao crescente número de documentos dgtas, vablzado pelo surgmento da World Wde Web, gerando a necessdade de organzá-los para facltar seu acesso e manuseo. Exstem duas prncpas abordagens para a categorzação de textos: uma é conhecda como engenhara do conhecmento (knowledge engneerng), onde o própro especalsta codfca o sstema através de regras que defnem cada categora da coleção de documentos, como a que fo utlzada no desenvolvmento da ferramenta CADWeb (CADWeb, 2012) por Gomes e Moraes Flho (2011), e outra, utlzada neste trabalho, que usa técncas de aprendzagem de máquna. Nessa abordagem, o classfcador é construído automatcamente, aprendendo as 2
3 propredades das categoras a partr de um conjunto de documentos de trenamento prevamente classfcados (FELDMAN; SANGER, 2007). No conceto de aprendzagem de máquna, esse processo é chamado de aprendzado supervsonado. Segundo Sebastan (2002), as vantagens dessa abordagem são: precsão comparável às atngdas pelos especalstas com consderáves economas de mão-de-obra, pos não exste a necessdade de ntervenção humana para a construção do classfcador ou adaptação para outro domíno de conhecmento. Exstem dversos algortmos classfcadores utlzados na tarefa de categorzação de textos, este trabalho utlzará três dos prncpas: Naïve Bayes, k- NN (k-nearest Neghbor) e SVM (Support Vector Machnes), devdo tratar-se de algortmos com resultados comprovadamente satsfatóros e utlzar métodos dstntos para tratar o problema de categorzação. Propõe-se também, um método de grupo, combnando os métodos anterores em um esquema de votação. A segur descrevem-se cada um deles. 2.1 Naïve Bayes O Naïve Bayes, é um classfcador probablístco baseado no teorema de Bayes, defndo na equação (1). P( d c ) ( ) P c d Pc (1) P( d ) Esse tpo de classfcador computa a probabldade de um documento d pertencer à classe c, assumndo que a presença de um termo em uma categora não está condconada a presença de qualquer outro. Devdo à ndependênca dos termos, apenas as varações para cada classe necessta de ser determnada, e não a matrz de covarânca completa (ZHANG, 2004). Segundo Domngos e Pazzan (1997), a ndependênca de termos na maora dos casos não prejudca a efcênca do classfcador. 2.2 k-nn O k-nn, é a base dos algortmos conhecdos como preguçosos (lazy algorthms). Ele armazena todo conjunto de trenamento e empenha todo o esforço em dreção à generalzação ndutva até o momento da classfcação (WETTSCHERECK; AHA; MOHRI, 1997). Esse classfcador representa cada exemplo como um ponto de dado em um espaço d-dmensonal, onde d é o número de atrbutos. Dado um exemplo de teste, calcula-se a proxmdade com o resto dos pontos de dados no conjunto de trenamento usando uma função de proxmdade (TAN; STEINBACH; KUMAR, 2009). Exemplos de função de proxmdade são: correlação, dstânca eucldana, medda de semelhança de Jaccard e co-seno, sendo as duas últmas mas ndcadas para ldar com dados de alta dmensonaldade, que é o caso de documentos. 2.3 SVM O SVM consttu uma técnca baseada na teora do aprendzado estatístco, baseado no prncípo de mnmzação do rsco estrutural ntroduzdo por Vapnk (2000). O objetvo desse algortmo é encontrar o hperplano de separação lnear ótmo entre duas classes, maxmzando 3
4 a margem entre seus pontos mas próxmos. O hperplano de classfcação é escolhdo durante a fase de trenamento como o únco que separa as nstâncas postvas conhecdas das nstâncas negatvas com a margem máxma entre elas (FELDMAN; SANGER, 2007). Os exemplos mas próxmos do hperplano são chamados vetores de suporte (support vectors). A Fgura 1 lustra esses concetos apresentando um exemplo de duas classes lnearmente separáves. Vetor de suporte Margem ótma Hperplano ótmo Fgura 1 Classes separadas lnearmente em um espaço b-dmensonal. Os vetores de suporte, em cnza, defnem a margem de maor separação entre as categoras Fonte: Adaptado de Cortes e Vapnk (1995) Para ldar com casos onde os exemplos de trenamento não são completamente separáves e um pequeno erro de classfcação é permtdo, utlza-se o conceto de margens suaves (soft margns), que ntroduz um parâmetro de custo C, especfcado pelo própro usuáro que determna o nível acetável de tolerânca a erros (BERRY; KOGAN, 2010). Outro parâmetro mportante a ser confgurado é o crtéro de parada (epslon), para evtar um loop nfnto na busca pelo hperplano ótmo. Neste trabalho, utlza-se a mplementação LIBSVM, crada por Chang e Ln (2011). 2.4 Método de Grupo O objetvo desta técnca é melhorar o desempenho da classfcação agregando a prevsão de múltplos classfcadores. Segundo Feldman e Sanger 2007, para obter bons resultados, os classfcadores devem ser sgnfcatvamente dferentes, seja na representação dos documentos ou no método de aprendzagem. Neste trabalho, é proposto um método de grupo utlzando-se dos três métodos descrtos anterormente. Em cada método, gera-se um valor de confança Conf, para cada par, c ), sendo d, o ( d documento e c, a categora. A confança é um valor normalzado dentro do ntervalo [0,1] que representa o nível de certeza de uma determnada predção. Em outras palavras, 4
5 representa o nível de pertnênca de um documento d à categora c, segundo um classfcador em partcular. Esse valor é calculado de forma dstnta para cada método, não cabendo ao escopo deste trabalho aprofundar neste processo. No método proposto, a categora atrbuída ao documento é aquela com maor soma das confanças nos três métodos m, utlzados. Para cada método, a confança é multplcada por um peso w, proporconal à posção do classfcador no rankng gerado após a etapa de otmzação de parâmetros e avalação prelmnar. Essa possbldade de combnação de classfcadores é menconada em Feldman e Sanger A equação (2) demonstra matematcamente o cálculo da pontuação C, de cada categora c e a equação (3), a atrbução da categora que obtver maor pontuação ao documento d. 3 C Conf ( d, c ) wm (2) m1 c( d ) max C C (3) 1, C2,..., Metodologa O expermento fo realzado através de cnco etapas descrtas nas próxmas subseções. O software open source Rapdmner, crado por Merswa et al (2006), fo utlzado como ferramenta prncpal ao longo do trabalho. Utlzou-se neste trabalho, 4336 artgos em língua portuguesa publcados em edções anterores do ENEGEP (ABEPRO, 2011) e SIMPEP (SIMPEP, 2011), sendo 3408 para trenamento dos classfcadores e 928 para testes. A Tabela 1 apresenta a dstrbução dos documentos nas onze categoras. Categoras Nº Artgos 1 GESTÃO DA PRODUÇÃO GESTÃO DA QUALIDADE GESTÃO ECONÔMICA ERGONOMIA E SEGURANÇA DO TRABALHO GESTÃO DO PRODUTO PESQUISA OPERACIONAL GESTÃO ESTRATÉGICA E ORGANIZACIONAL GESTÃO DO CONHECIMENTO ORGANIZACIONAL GESTÃO AMBIENTAL EDUCAÇÃO EM ENGENHARIA DE PRODUÇÃO ENG. PROD., SUSTENTABILIDADE E RESPONSABILIDADE SOCIAL 143 Total 4336 Tabela 1 Dstrbução dos documentos por categora 3.1 Pré-processamento dos documentos 5
6 O objetvo dessa etapa é representar os documentos de forma que eles possam ser processados pelos algortmos de aprendzagem. Prmeramente todos os documentos adqurdos em formato PDF foram transformados em texto smples, através do software Some PDF to TXT converter v1.0 (FREE ). A motvação fo o ganho em desempenho na execução dos algortmos, na ordem de vnte vezes, aproxmadamente. Após essa conversão, se manteve apenas o conteúdo textual dos documentos. Fguras e opções de formatação foram automatcamente gnoradas. Em seguda, fo necessáro exclur o tema do congresso para os documentos onde o mesmo fo dentfcado no corpo do texto, pos são termos que não representam com fdeldade seu conteúdo. Como os algortmos de aprendzagem de máquna são ncapazes de processar documentos em seu formato orgnal, durante essa etapa, realzou-se a representação dos documentos em vetores de característcas. O tpo mas comum de representação é chamado bag of words (saco de palavras), que utlza todos os termos do documento como característcas. Dessa forma, a dmensão do espaço de característcas é gual ao número de termos dferentes encontrados em todos os documentos. Exstem váras formas de atrbur pesos aos termos. Neste trabalho utlza-se a frequênca do termo normalzada, modelada matematcamente nas equações (4) e (5): O F (4) T FN 2 F F 2 F 2 1 F n (5) Onde: F : Frequênca do termo ; O : Ocorrêncas do termo ; T : Número de termos no documento; FN : Frequênca do termo normalzada. Antes de efetvamente gerar o vetor de característcas para cada documento, cnco processos são executados sequencalmente com o objetvo de reduzr a dmensão do espaço de representação dos documentos: Case foldng: Esse processo é responsável por transformar todas as letras dos termos em mnúsculas; Remoção de stopwords: O objetvo deste processo é remover termos que não apresentam um conteúdo semântco sgnfcatvo no contexto em que se apresentam no documento. Geralmente trata-se de palavras auxlares ou conectvas (por exemplo: a, de, aos, com), que não fornecem nenhuma nformação que venha a representar 6
7 conteúdo dos documentos. A exclusão se dará com base em um arquvo texto com a lsta dos termos; Prunnng: Especfca crtéros de elmnação. Neste trabalho, obtveram-se melhores resultados gnorando termos que ocorrem em menos de 4% dos documentos e em mas de 99% dos documentos. Foram removdas também as palavras com menos de cnco letras; Stemmng: O objetvo deste processo é a remoção do sufxo e prefxo dos termos que possam vr a representar uma varação verbal ou plural, gerando apenas os radcas de acordo com as regras gramatcas da língua utlzada. Por exemplo: os termos computação, computador e computar são transformados em comput. A prncpal fnaldade desse processo é a redução do espaço dmensonal. Neste trabalho, utlzouse o algortmo de Porter adaptado para a língua portuguesa na lnguagem snowball, crada pelo própro Porter. Informações sobre ao algortmo podem ser obtdas em Wllet (2006) e sobre a lnguagem snowball em Porter (2011). A Fgura 2 lustra a sequênca de processos modeladas no RapdMner. Fgura 2 Etapas do pré-processamento modeladas no Rapdmner Ao térmno dessa etapa, obtveram-se todos os 4336 representados no modelo bag of words, com uma redução do espaço dmensonal na ordem de 50,3%. 3.2 Otmzação de parâmetros e avalação prelmnar dos algortmos Prmeramente, defnu-se-se as métrcas utlzadas na avalação do desempenho dos métodos: acuráca (accuracy), precsão (precson), abrangênca (recall) e F 1. A acuráca, a, é a medda mas básca de efcênca do classfcador, sendo a fração de documentos corretamente categorzados. Abrangênca, r, é defnda como a fração dos documentos de uma categora corretamente classfcados. Precsão, p, é defnda como a fração de documentos corretamente classfcados dentre todos os documentos atrbuídos pelo classfcador a uma categora. Portanto, uma abrangênca perfeta é alcançada caso todos os documentos da categora em questão sejam nela classfcados, ndependentemente se outros documentos de outras categoras sejam também atrbuídos a ela. Por outro lado, uma boa precsão é alcançada ao evtar que documentos provenentes de dferentes categoras sejam atrbuídos a uma só. Em vrtude da varedade de aspectos de avalação, uma abordagem mas usual para avalar o desempenho da categorzação é F 1, uma combnação entre precsão e abrangênca, dada pela 7
8 méda harmônca dessas duas métrcas. As equações (6), (7), (8) e (9) defnem as métrcas ctadas anterormente: DC a (6) TD VP p (7) VP FP VP r (8) VP FN 2 F1 (9) 1 1 p r Onde: DC : documentos corretamente categorzados; TD : total de documentos; VP : verdadero-postvos; FP : falso-postvos; FN : falso-negatvos. Com os documentos devdamente representados no modelo bag of words, o próxmo passo fo utlzar os 3408 documentos separados ncalmente para otmzação dos parâmetros e trenamento dos algortmos de forma a maxmzar sua acuráca, estmando assm o desempenho do classfcador quando apresentados ao conjunto de teste. A busca pelos parâmetros ótmos deu-se de forma empírca utlzando duas técncas em conjunto para auxlar neste processo: A busca por força bruta (grd search), bascamente uma forma automátca de varar um parâmetro dentro de uma faxa pré-estabelecda de valores ncrementada por alguma função, e a valdação cruzada, que consste em dvdr o conjunto de trenamento em x subconjuntos de gual tamanho, testando sequencalmente cada subconjunto no classfcador trenado com os elementos dos subconjuntos x 1 restantes (HSU; CHANG; LIN, 2010). Neste trabalho realzou-se a busca por força bruta utlzando valdação cruzada com x 10 e a acuráca obtda fo armazenada. Esse processo fo utlzado na escolha do valor de k (número de vznhos) para o algortmo k-nn, e do valor de C (nível de tolerânca a erros) e (crtéro de parada) para o SVM. O classfcador Naïve Bayes não necessta de customzação de parâmetros. 8
9 Para o algortmo k-nn, o objetvo fo encontrar o valor de k que maxmzasse a acuráca do modelo. Para sso, realzou-se uma busca por força bruta com 50 valores de k em escala logarítmca na faxa de 1 a 100 utlzando a valdação cruzada para avalação de cada teração. Ao fnal do processo, chegou-se ao número de 23 vznhos. A Fgura 3 demonstra o resultado desse processo. Fgura 3 Resultado do processo de busca pelo valor de k do algortmo k-nn Dferentemente do processo de busca por força bruta utlzado para encontrar o melhor valor de k, do classfcador k-nn, para o classfcador SVM não se utlzou todo o conjunto de trenamento devdo ao alto custo computaconal e tempo exgdo para a conclusão do processo. Por esta razão, optou-se por utlzar 10% do conjunto de trenamento, respetando o balanceamento entre as categoras. Conforme sugerdo por Hsu, Chang e Ln, 2010, os valores de C e vararam exponencalmente da segunte forma: C = {2-5, 2-3,...,2 9 } e ={2-15, 2-13,...,2 1 }. Apesar do resultado da busca apontar para os valores C = 2 e = 0,00003, quando se utlzou todo o conjunto de trenamento, a acuráca fo menor que a obtda com os valores padrões (C = 0 e = 0,001), portanto, esses últmos foram utlzados. A tabela com o resultado deste processo de busca pode ser consultado no APENDICE Geração dos modelos de classfcação Superada a otmzação e avalação prelmnar, gerou-se o modelo de cada classfcador com os parâmetros ótmos e com os 3408 documentos de trenamento servndo como base de aprendzagem. A Fgura 4 lustra esse processo modelado no Rapdmner. 9
10 Fgura 4 Modelagem feta no RapdMner para geração dos classfcadores Observa-se que o mesmo conjunto de trenamento é utlzado em todos os classfcadores. 3.4 Testes Na etapa de testes, realzou-se a classfcação propramente dta, onde os 928 documentos separados para essa fnaldade foram submetdos aos três classfcadores, e o resultado de cada classfcação, nclundo a confança para cada par (, c ), gravado em um arquvo. Vale ressaltar que esses documentos não foram utlzados na etapa de otmzação e avalação prelmnar dos algortmos. Na Fgura 5, o modelo construído para o teste de classfcação é apresentado. d Fgura 5 Modelagem feta no RapdMner para classfcação dos documentos de teste 10
11 Além da classfcação, realzou-se um expermento para verfcar o grau de smlardade entre os documentos das onze categoras da Engenhara de Produção servndo como nsumo de avalação do desempenho dos classfcadores, utlzando a medda de proxmdade smlardade do co-seno. Neste expermento, combnaram-se documentos de cada área para representá-la, de forma a utlzar-se de pelo menos um documento de cada subárea. Como base de comparação, o mesmo expermento fo realzado com três artgos de outras áreas do conhecmento completamente dstntas: Odontologa, Dreto e Informátca. 4. Resultados e Dscussões Esta seção apresenta os resultados obtdos desde a etapa de otmzação de parâmetros e avalação prelmnar até os resultados de cada classfcador quando confrontados com o conjunto de teste. Na Tabela 2, é apresentado o resultado de cada classfcador na etapa de otmzação de parâmetros e avalação prelmnar. Categoras SVM k-nn Naïve Bayes Precsão Abrangênca F 1 Precsão Abrangênca F 1 Precsão Abrangênca F 1 1 GESTÃO DA PRODUÇÃO 0,63 0,60 0,62 0,59 0,57 0,58 0,58 0,54 0,56 2 GESTÃO DA QUALIDADE 0,75 0,75 0,75 0,69 0,79 0,74 0,68 0,75 0,72 3 GESTÃO ECONÔMICA 0,68 0,71 0,70 0,69 0,66 0,68 0,68 0,66 0,67 4 ERGONOMIA E SEGURANÇA DO TRABALHO 0,88 0,90 0,89 0,86 0,88 0,87 0,89 0,84 0,87 5 GESTÃO DO PRODUTO 0,77 0,74 0,75 0,66 0,69 0,68 0,65 0,72 0,68 6 PESQUISA OPERACIONAL 0,72 0,78 0,75 0,77 0,68 0,72 0,75 0,64 0,69 7 GESTÃO ESTRATÉGICA E ORGANIZACIONAL 0,65 0,63 0,64 0,63 0,62 0,62 0,66 0,51 0,58 8 GESTÃO DO CONHECIMENTO ORGANIZACIONAL 0,68 0,73 0,70 0,61 0,75 0,67 0,51 0,80 0,62 9 GESTÃO AMBIENTAL 0,71 0,73 0,72 0,72 0,68 0,70 0,76 0,54 0,64 10 EDUCAÇÃO EM ENGENHARIA DE PRODUÇÃO 0,72 0,68 0,70 0,72 0,53 0,61 0,75 0,54 0,63 11 ENG. PROD., SUSTENTABILIDADE E RESP. SOCIAL 0,58 0,38 0,46 0,70 0,27 0,39 0,48 0,43 0,45 Acuráca 71,10% 68,12% 65,61% Tabela 2 Resultado do processo de otmzação e avalação prelmnar dos classfcadores De acordo com os resultados obtdos nessa etapa, o classfcador SVM obteve melhor acuráca, com 71,10%, o k-nn fo o segundo colocado com 68,12% e o Naïve Bayes o tercero com 65,61%. A partr desses resultados defnram-se os pesos w m para o método de grupo proposto como sendo: w 2 para o SVM, w 1, 5 para o k-nn e w 1para o Naïve Bayes. Observa-se na Tabela 3, que de forma geral se obteve um desempenho nferor dos três classfcadores em todas as métrcas quando apresentados ao conjunto de teste comparado aos valores obtdos na etapa de otmzação e avalação prelmnar. Pequenas dferenças entre o desempenho estmado e o real são comuns na maora dos casos. O classfcador SVM, apesar de manter-se como o de melhor desempenho, apresentou a maor queda na acuráca entre as etapas (5,48%). O classfcador k-nn obteve a menor varação entre o desempenho estmado e o real. 11
12 Categoras SVM k-nn Naïve Bayes Precsão Abrangênca F 1 Precsão Abrangênca F 1 Precsão Abrangênca F 1 1 GESTÃO DA PRODUÇÃO 0,87 0,52 0,65 0,83 0,54 0,65 0,82 0,50 0,62 2 GESTÃO DA QUALIDADE 0,64 0,77 0,70 0,61 0,77 0,68 0,57 0,73 0,64 3 GESTÃO ECONÔMICA 0,60 0,73 0,66 0,53 0,66 0,59 0,57 0,66 0,61 4 ERGONOMIA E SEGURANÇA DO TRABALHO 0,69 0,89 0,78 0,69 0,81 0,75 0,72 0,87 0,79 5 GESTÃO DO PRODUTO 0,53 0,69 0,60 0,49 0,85 0,62 0,40 0,65 0,50 6 PESQUISA OPERACIONAL 0,40 0,53 0,46 0,51 0,47 0,49 0,44 0,40 0,42 7 GESTÃO ESTRATÉGICA E ORGANIZACIONAL 0,61 0,70 0,65 0,59 0,71 0,65 0,59 0,54 0,56 8 GESTÃO DO CONHECIMENTO ORGANIZACIONAL 0,66 0,80 0,72 0,64 0,83 0,72 0,51 0,87 0,64 9 GESTÃO AMBIENTAL 0,63 0,83 0,71 0,63 0,78 0,70 0,72 0,72 0,72 10 EDUCAÇÃO EM ENGENHARIA DE PRODUÇÃO 0,44 0,71 0,55 0,47 0,47 0,47 0,42 0,47 0,44 11 ENG. PROD., SUSTENTABILIDADE E RESP. SOCIAL 0,72 0,39 0,51 0,81 0,37 0,51 0,71 0,52 0,60 Acuráca 65,62% 64,87% 61,53% Tabela 3 Resultado dos classfcadores com o conjunto de teste A Tabela 4 apresenta o resultado do classfcador de grupo proposto, que obteve melhor desempenho em todas as métrcas utlzadas, superando o desempenho ndvdual do método SVM. Categoras Método de Grupo Precsão Abrangênca F 1 1 GESTÃO DA PRODUÇÃO 0,91 0,60 0,72 2 GESTÃO DA QUALIDADE 0,68 0,87 0,76 3 GESTÃO ECONÔMICA 0,72 0,89 0,80 4 ERGONOMIA E SEGURANÇA DO TRABALHO 0,77 0,96 0,86 5 GESTÃO DO PRODUTO 0,65 0,77 0,70 6 PESQUISA OPERACIONAL 0,57 0,60 0,59 7 GESTÃO ESTRATÉGICA E ORGANIZACIONAL 0,71 0,81 0,76 8 GESTÃO DO CONHECIMENTO ORGANIZACIONAL 0,68 0,88 0,76 9 GESTÃO AMBIENTAL 0,71 0,87 0,78 10 EDUCAÇÃO EM ENGENHARIA DE PRODUÇÃO 0,52 0,65 0,58 11 ENG. PROD., SUSTENTABILIDADE E RESP. SOCIAL 0,88 0,46 0,60 Acuráca 73,71% Tabela 4 Resultado do classfcador de grupo proposto com o conjunto de teste Observando os resultados da Tabela 4 é possível obter-se algumas conclusões. Com exceção das categoras 6, 10 e 11, todas obtveram um valor de F 1 acma de 0,70. A categora 4 obteve melhor valor de F 1, sto é, tem o melhor desempenho de classfcação combnando a precsão e a abrangênca (0,86). Além dsso, fo a categora que atngu o maor nível de abrangênca, com 96% dos documentos pertencentes à categora 4 corretamente classfcados. Na prátca sso se traduz em um alto número de verdadero-postvos. Pode-se afrmar, que os documentos pertencentes a essa categora, possuem uma grande quantdade de termos que pesam em sua representação de forma a dferencá-la bastante das demas. A categora que atngu o maor nível de precsão fo a categora 1, com 91%. Isto representa um baxo número de falso-postvos. A categora 11 demonstrou-se como a de menor abrangênca e a 10 de menor precsão. Pelos dados da Tabela 5, observa-se que as categoras 11 e 9, possuem o maor grau de smlardade, que se traduz na prátca como documentos que compartlham grande quantdade de termos com pesos equvalentes, sugerndo publcação em ambas áreas, mas contrbu para a baxa abrangênca apresentada pela categora 11 no expermento realzado. Na Tabela 6 apresenta-se como referênca, o cálculo de smlardade de documentos de áreas totalmente dstntas obtdas em um expermento de apoo para esta fnaldade. 12
13 Categora 1 Categora 2 smlardade , , , , ,275 Tabela 5 Os cnco pares de categoras com maor grau de smlardade dentre as onze categoras da Engenhara de Produção Categora 1 Categora 2 smlardade Dreto Odontologa 0,007 Dreto Informátca 0,008 Odontologa Informátca 0,008 Tabela 6 Teste de smlardade com artgos de Dreto, Odontologa e Informátca Para lustrar um caso prátco, a escolha da área de submssão do presente artgo (8.Gestão do Conhecmento Organzaconal) fo realzada utlzando o classfcador proposto. A Tabela 7 apresenta o resultado da votação que determnou essa escolha. Categoras Pontuação 0,30 0,70 0,43 0,10 0,09 1,02 0,03 1,24 0,06 0,50 0,02 Tabela 7 Resultado da categorzação do presente artgo pelo método proposto 5. Conclusão Consderando o alto grau de smlardade entre documentos de algumas categoras comprovado expermentalmente, e o fato de não exstr na lteratura um valor mínmo estpulado para determnar se os valores das métrcas: acuráca, precsão e abrangênca são satsfatóros, trazendo essa subjetvdade aos especalstas do domíno estudado, conclu-se que o classfcador proposto neste trabalho pode ser utlzado em uma ferramenta de apoo a professores e alunos da área de Engenhara de Produção, de forma a auxlá-los no processo de escolha da melhor área para publcação do seus artgos. Além dsso, pelos resultados obtdos neste trabalho, sugere-se utlzar o mesmo modelo adaptando-o para realzar o segundo nível de classfcação, determnando a subárea de publcação do artgo. Enfm, espera-se que este trabalho contrbua para o crescmento, organzação e qualdade da produção centífca em Engenhara de Produção no Brasl. Referêncas 13
14 ABEPRO (Brasl) (Org.). ANAIS ENEGEP. Dsponível em: < Acesso em: 19 fev ABEPRO (Ro de Janero). Áreas e Sub-áreas para envo de artgos. Dsponível em: < >. Acesso em: 08 abr BERRY, Mchael W.; KOGAN, Jacob. Text Mnng Applcatons and Theory. Wley, p. CADWeb, Dsponível em: < Acesso em: 04 abr CAPES (Brasl). Relação de Cursos Recomendados e Reconhecdos. Dsponível em: < &descrcaoArea=ENGENHARIAS+&descrcaoAreaConhecmento=ENGENHARIA+DE+PRODU% C7%C3O&descrcaoAreaAvalacao=ENGENHARIAS+III>. Acesso em: 19 mar CHANG, Chh-chung; LIN, Chh-jen. LIBSVM: A lbrary for support vector machnes. Acm Trans. Intell. Syst. Technol., New York, p.1-27, Dsponível em: < Acesso em: 20 mao CORTES, Cornna; VAPNIK, Vladmr. Support-Vector Networks. Machne Learnng, v. 20, p , DOMINGOS, P.; PAZZANI, M. On The Optmalty of the Smple Bayesan Classfer Under Zero-one Loss. Machne Learnng, 29 (2/3), 103, FELDMAN, Ronen; SANGER, James. THE TEXT MINING HANDBOOK: Advanced Approaches n Analyzng Unstructured Data. New York: Cambrdge Unversty Press, p. FREE PDF to TXT Converter, Dsponível em: < Acesso em: 20 mar GOMES, Georga Regna Rodrgues; MORAES FILHO, Rubens de Olvera. CADWeb Categorzação automátca de documentos dgtas. C. Inf., Brasíla, v. 1, n. 40, p.68-76, jan HSU, Chh-we; CHANG, Chh-chung; LIN, Chh-jen. A Practcal Gude to Support Vector Classfcaton. Bonformatcs, v. 1, p.1-16, Dsponível em: < Acesso em: 20 mao MARON, M. E.; KUHNS, J. L.. On Relevance, Probablstc Indexng and Informaton Retreval. Journal Of The Acm (jacm), New York, v. 8, n. 3, p , jul MIERSWA, Ingo et al. YALE: Rapd Prototypng for Complex Data Mnng Tasks. Proceedngs Of The 12th Acm Sgkdd Internatonal Conference On Knowledge Dscovery And Data Mnng: KDD, Phladelpha, p , Dsponível em: < Acesso em: 02 mao NUPENGE (Brasl). CURSOS DE GRADUAÇÃO EM ENGENHARIA DE PRODUÇÃO. Dados organzados pelo NUPENGE (Núcleo de Estudos e Pesqusas sobre Formação e Exercíco Profssonal em Engenhara da UFJF) com base nos dados coletados do ste Revsado em julho de Apoo: ABEPRO. Dsponível em: < Acesso em: 19 mar
15 PORTER, Martn F.. Snowball: A language for stemmng algorthms. Dsponível em: < Acesso em: 20 mao SEBASTIANI, Fabrzo. Machne learnng n automated text categorzaton. Acm Computng Surveys, v. 34, n. 1, p.1-47, SIMPEP (Brasl). ANAIS SIMPEP. Dsponível em: < Acesso em: 19 mar TAN, Pang-nng; STEINBACH, Mchael; KUMAR, Vpn. Introdução ao DATA MINING Mneração de Dados. Ro de Janero: Cênca Moderna Ltda, p. VAPNIK, Vladmr. The Nature of Statstcal Learnng Theory. 2. ed. New York: Sprnger, p. WETTSCHERECK, Detrch; AHA, Davd W.; MOHRI, Takao. A Revew and Emprcal Evaluaton of Feature Weghtng Methods for a Class of Lazy Learnng Algorthms. Rtfcal Intellgence Revew, Sprnger Netherlands, v. 11, n. 1, p , 01 fev Dsponível em: < Acesso em: 04 abr WILLETT, Peter. The Porter stemmng algorthm: then and now. Program: Electronc Lbrary And Informaton Systems, v. 40, n. 3, p , ZHANG, H.. The optmalty of nave bayes. Proceedngs Of The Seventeenth Internatonal Florda Artfcal Intellgence Research Socety Conference, Mam Beach, p , Dsponível em: < Acesso em: 23 mar ANEXO 15
16 C acuráca (%) 2,00 0, ,94 0,50 0, ,14 0,50 0, ,96 2,00 0, ,79 0,50 0, ,63 0,50 0, ,63 32,00 0, ,62 2,00 0, ,36 8,00 0, ,32 512,00 0, ,31 128,00 0, ,30 512,00 0, ,17 2,00 0, ,17 8,00 0, ,15 128,00 0, ,14 2,00 0, ,13 32,00 0, ,12 0,50 0, ,98 2,00 0, ,98 0,50 0, ,80 128,00 0, ,79 512,00 0, ,79 2,00 0, ,79 32,00 0, ,66 8,00 0, ,65 8,00 0, ,64 0,13 0, ,50 8,00 0, ,49 8,00 0, ,48 0,50 0, ,48 128,00 0, ,35 8,00 0, ,32 32,00 0, ,31 32,00 0, ,30 512,00 0, ,29 0,13 0, ,14 512,00 0, ,13 32,00 0, ,00 32,00 0, ,83 512,00 0, ,65 128,00 0, ,49 0,13 0, ,31 128,00 0, ,30 0,13 0, ,16 128,00 0, ,16 0,13 0, ,16 0,13 0, ,15 0,13 0, ,68 512,00 0, ,36 512,00 2, ,71 2,00 2, ,54 32,00 2, ,53 8,00 2, ,20 0,50 2, ,18 128,00 2, ,02 0,03 0, ,54 0,03 0, ,85 0,03 0, ,19 0,03 0, ,19 0,03 0, ,04 0,03 0, ,72 0,03 0, ,54 0,13 2, ,22 0,03 2, ,06 APÊNDICE 1 Resultado do processo de busca por força bruta dos parâmetros C e ε do classfcador SVM. 16
Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Classificadores Lineares. Luiz Eduardo S. Oliveira, Ph.D.
Unversdade Federal do Paraná Departamento de Informátca Reconhecmento de Padrões Classfcadores Lneares Luz Eduardo S. Olvera, Ph.D. http://lesolvera.net Objetvos Introduzr os o conceto de classfcação lnear.
Leia maisAprendizagem de Máquina
Plano de Aula Aprendzagem de Máquna Aprendzagem Baseada em Instâncas Alessandro L. Koerch Introdução Espaço Eucldano Aprendzagem Baseada em Instâncas (ou Modelos Baseados em Dstânca) Regra knn (k vznhos
Leia mais3 Algoritmos propostos
Algortmos propostos 3 Algortmos propostos Nesse trabalho foram desenvolvdos dos algortmos que permtem classfcar documentos em categoras de forma automátca, com trenamento feto por usuáros Tas algortmos
Leia mais5 Implementação Procedimento de segmentação
5 Implementação O capítulo segunte apresenta uma batera de expermentos prátcos realzados com o objetvo de valdar o método proposto neste trabalho. O método envolve, contudo, alguns passos que podem ser
Leia maisAvaliação do Modelo. Avaliação de Modelos. Métricas para avaliação de desempenho. Métricas para avaliação de desempenho 31/05/2017
3/05/07 Avalação do Modelo Avalação de Modelos Métrcas para avalação de desempenho Como avalar o desempenho do modelo? Métodos para avalação de desempenho Como obter estmatvas confáves? Métodos para comparação
Leia mais4 Critérios para Avaliação dos Cenários
Crtéros para Avalação dos Cenáros É desejável que um modelo de geração de séres sntétcas preserve as prncpas característcas da sére hstórca. Isto quer dzer que a utldade de um modelo pode ser verfcada
Leia maisReconhecimento Estatístico de Padrões
Reconhecmento Estatístco de Padrões X 3 O paradgma pode ser sumarzado da segunte forma: Cada padrão é representado por um vector de característcas x = x1 x2 x N (,,, ) x x1 x... x d 2 = X 1 X 2 Espaço
Leia maisCATEGORIZAÇÃO DE DOCUMENTOS CIENTÍFICOS DE ENGENHARIA UTILIZANDO APRENDIZAGEM DE MÁQUINA
CATEGORIZAÇÃO DE DOCUMENTOS CIENTÍFICOS DE ENGENHARIA UTILIZANDO APRENDIZAGEM DE MÁQUINA Fernando José F. Andnós Júnor ferandnos@gmal.com Geórga R. Rodrgues Gomes georga@ucam-campos.br Unversdade Canddo
Leia maisIMPLEMENTAÇÃO DO MÉTODO DE FATORAÇÃO DE INTEIROS CRIVO QUADRÁTICO
IMPLEMENTAÇÃO DO MÉTODO DE FATORAÇÃO DE INTEIROS CRIVO QUADRÁTICO Alne de Paula Sanches 1 ; Adrana Betâna de Paula Molgora 1 Estudante do Curso de Cênca da Computação da UEMS, Undade Unverstára de Dourados;
Leia maisAdriana da Costa F. Chaves
Máquna de Vetor Suporte (SVM) para Regressão Adrana da Costa F. Chaves Conteúdo da apresentação Introdução Regressão Regressão Lnear Regressão não Lnear Conclusão 2 1 Introdução Sejam {(x,y )}, =1,...,,
Leia maisAula Características dos sistemas de medição
Aula - Característcas dos sstemas de medção O comportamento funconal de um sstema de medção é descrto pelas suas característcas (parâmetros) operaconas e metrológcas. Aqu é defnda e analsada uma sére destes
Leia maisAprendizagem de Máquina
Aprendzagem de Máquna Alessandro L. Koerch Programa de Pós-Graduação em Informátca Pontfíca Unversdade Católca do Paraná (PUCPR) Máqunas de Vetor de Suporte Introdução Support Vector Machnes SVM Método
Leia maisEXERCÍCIO: VIA EXPRESSA CONTROLADA
EXERCÍCIO: VIA EXPRESSA CONTROLADA Engenhara de Tráfego Consdere o segmento de va expressa esquematzado abaxo, que apresenta problemas de congestonamento no pco, e os dados a segur apresentados: Trechos
Leia mais6 Modelo Proposto Introdução
6 Modelo Proposto 6.1. Introdução Neste capítulo serão apresentados detalhes do modelo proposto nesta dssertação de mestrado, onde será utlzado um modelo híbrdo para se obter prevsão de carga curto prazo
Leia mais4.1 Modelagem dos Resultados Considerando Sazonalização
30 4 METODOLOGIA 4.1 Modelagem dos Resultados Consderando Sazonalzação A sazonalzação da quantdade de energa assegurada versus a quantdade contratada unforme, em contratos de fornecmento de energa elétrca,
Leia maisCap. 5 Classificação Temática
Prncípos e Aplcações da Deteção Remota Cap. 5 Classfcação Temátca 5.1 O Processo de Classfcação 5. Classfcação de Máxma Verosmlhança (supervsonada paramétrca) 5..1 Classes multvaradas normas 5.. Lmtes
Leia maisU N I V E R S I D A D E D O S A Ç O R E S D E P A R T A M E N T O D E M A T E M Á T I C A ARMANDO B MENDES ÁUREA SOUSA HELENA MELO SOUSA
U N I V E R S I D A D E D O S A Ç O R E S D E P A R T A M E N T O D E M A T E M Á T I C A CLASSIFICAÇÃO DE MONOGRAFIAS UMA PROPOSTA PARA MAIOR OBJECTIVIDADE ARMANDO B MENDES ÁUREA SOUSA HELENA MELO SOUSA
Leia maisUNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)
UNDADE V DELNEAMENTO NTERAMENTE CASUALZADO (DC) CUABÁ, MT 015/ PROF.: RÔMULO MÔRA romulomora.webnode.com 1. NTRODUÇÃO Este delneamento apresenta como característca prncpal a necessdade de homogenedade
Leia mais2 Metodologia de Medição de Riscos para Projetos
2 Metodologa de Medção de Rscos para Projetos Neste capítulo remos aplcar os concetos apresentados na seção 1.1 ao ambente de projetos. Um projeto, por defnção, é um empreendmento com metas de prazo, margem
Leia mais2 Incerteza de medição
2 Incerteza de medção Toda medção envolve ensaos, ajustes, condconamentos e a observação de ndcações em um nstrumento. Este conhecmento é utlzado para obter o valor de uma grandeza (mensurando) a partr
Leia mais2 Fundamentos Teóricos
Fundamentos Teórcos 2 Fundamentos Teórcos 2. Aprendzado de Máquna Aprendzado de Máquna é uma área de Intelgênca Artfcal cuo obetvo é o desenvolvmento de técncas computaconas sobre o aprendzado bem como
Leia maisESTUDO DO MÉTODO DE FATORAÇÃO DE INTEIROS CRIVO QUADRÁTICO
ESTUDO DO MÉTODO DE FATORAÇÃO DE INTEIROS CRIVO QUADRÁTICO Alne de Paula Sanches (Bolssta UEMS), Adrana Betâna de Paula Molgora Unversdade Estadual de Mato Grosso do Sul Cdade Unverstára de Dourados, Caxa
Leia mais7 - Distribuição de Freqüências
7 - Dstrbução de Freqüêncas 7.1 Introdução Em mutas áreas há uma grande quantdade de nformações numércas que precsam ser dvulgadas de forma resumda. O método mas comum de resumr estes dados numércos consste
Leia mais2 Redes Neurais Auto-Organizáveis
2 Redes Neuras Auto-Organzáves 2.1 Introdução Problemas de clusterng estão presentes nos mas varados contetos, como por eemplo: classfcação de padrões, mneração de dados e recuperação de nformações de
Leia maisUNIVERSIDADE DE PERNAMBUCO. Física Experimental. Prof o José Wilson Vieira
UNIVERSIDADE DE PERNAMBUCO ESCOLA POLITÉCNICA DE PERNAMBUCO Físca Expermental Prof o José Wlson Vera wlson.vera@upe.br AULA 01: PROCESSOS DE ANÁLISE GRÁFICA E NUMÉRICA MODELO LINEAR Recfe, agosto de 2015
Leia mais3 Elementos de modelagem para o problema de controle de potência
3 Elementos de modelagem para o problema de controle de potênca Neste trabalho assume-se que a rede de comuncações é composta por uma coleção de enlaces consttuídos por um par de undades-rádo ndvdualmente
Leia mais1. CORRELAÇÃO E REGRESSÃO LINEAR
1 CORRELAÇÃO E REGREÃO LINEAR Quando deseja-se estudar se exste relação entre duas varáves quanttatvas, pode-se utlzar a ferramenta estatístca da Correlação Lnear mples de Pearson Quando essa correlação
Leia maisUMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR
UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EATAS DEPARTAMENTO DE ESTATÍSTICA UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR
Leia maisCONTROLADORES FUZZY. Um sistema de controle típico é representado pelo diagrama de blocos abaixo:
CONTROLADORES FUZZY Um sstema de controle típco é representado pelo dagrama de blocos abaxo: entrada ou referênca - erro CONTROLADOR snal de controle PLANTA saída A entrada ou referênca expressa a saída
Leia maisClassificação de Padrões
Classfcação de Padrões Introdução Classfcadores Paramétrcos Classfcadores Sem-paramétrcos Redução da Dmensonaldade Teste de Sgnfcânca 6.345 Sstema de Reconhecmento de Voz Teora Acústca da Produção de Voz
Leia maisOs modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.
MODELO DE REGRESSÃO DE COX Os modelos de regressão paramétrcos vstos anterormente exgem que se suponha uma dstrbução estatístca para o tempo de sobrevvênca. Contudo esta suposção, caso não sea adequada,
Leia maisAlgarismos Significativos Propagação de Erros ou Desvios
Algarsmos Sgnfcatvos Propagação de Erros ou Desvos L1 = 1,35 cm; L = 1,3 cm; L3 = 1,30 cm L4 = 1,4 cm; L5 = 1,7 cm. Qual destas meddas está correta? Qual apresenta algarsmos com sgnfcado? O nstrumento
Leia maisINTRODUÇÃO À PROBABILIDADE. A probabilidade é uma medida da incerteza dos fenômenos. Traduz-se por um número real compreendido de 0 ( zero) e 1 ( um).
INTRODUÇÃO À PROILIDDE teora das probabldade nada mas é do que o bom senso transformado em cálculo probabldade é o suporte para os estudos de estatístca e expermentação. Exemplos: O problema da concdênca
Leia maisINF 1771 Inteligência Artificial
INF 77 Intelgênca Artfcal Aula 8 Redes Neuras Edrle Soares de Lma Formas de Aprendzado Aprendzado Supervsonado Árvores de decsão. K-Nearest Neghbor (KNN). Support Vector Machnes (SVM).
Leia maisAuto-Fusão da Auto-Face, do Auto-Esboço e da Auto-Pele pelo Misturograma em imagens em nível de cinza
Auto-Fusão da Auto-Face, do Auto-Esboço e da Auto-Pele pelo Msturograma em magens em nível de cnza Severno Jr, Osvaldo IMES - FAFICA osvaldo@fafca.br Gonzaga, Adlson Escola de Engenhara de São Carlos -
Leia maisREGRESSÃO NÃO LINEAR 27/06/2017
7/06/07 REGRESSÃO NÃO LINEAR CUIABÁ, MT 07/ Os modelos de regressão não lnear dferencam-se dos modelos lneares, tanto smples como múltplos, pelo fato de suas varáves ndependentes não estarem separados
Leia maisRAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro
UNIVERIDADE DE ÃO PAULO FACULDADE DE ECONOMIA, ADMINITRAÇÃO E CONTABILIDADE DE RIBEIRÃO PRETO DEPARTAMENTO DE ADMINITRAÇÃO RAD1507 Estatístca Aplcada à Admnstração I Prof. Dr. Evandro Marcos adel Rbero
Leia mais3 Método Numérico. 3.1 Discretização da Equação Diferencial
3 Método Numérco O presente capítulo apresenta a dscretação da equação dferencal para o campo de pressão e a ntegração numérca da expressão obtda anterormente para a Vscosdade Newtonana Equvalente possbltando
Leia maisÉ o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.
Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Numa relação expermental os valores de uma das
Leia mais3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo
3 Metodologa de Avalação da Relação entre o Custo Operaconal e o Preço do Óleo Este capítulo tem como objetvo apresentar a metodologa que será empregada nesta pesqusa para avalar a dependênca entre duas
Leia maisFigura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma
Capítulo 8 Dferencação Numérca Quase todos os métodos numércos utlzados atualmente para obtenção de soluções de equações erencas ordnáras e parcas utlzam algum tpo de aproxmação para as dervadas contínuas
Leia mais3 Subtração de Fundo Segmentação por Subtração de Fundo
3 Subtração de Fundo Este capítulo apresenta um estudo sobre algortmos para a detecção de objetos em movmento em uma cena com fundo estátco. Normalmente, estas cenas estão sob a nfluênca de mudanças na
Leia maisRedes Neurais (Inteligência Artificial)
Redes Neuras (Intelgênca Artfcal) Aula 14 Redes Neuras Edrle Soares de Lma Formas de Aprendzado Aprendzado Supervsonado Árvores de Decsão. K-Nearest Neghbor (KNN). Support Vector Machnes
Leia mais3 A técnica de computação intensiva Bootstrap
A técnca de computação ntensva ootstrap O termo ootstrap tem orgem na expressão de língua nglesa lft oneself by pullng hs/her bootstrap, ou seja, alguém levantar-se puxando seu própro cadarço de bota.
Leia maisÂngulo de Inclinação (rad) [α min α max ] 1 a Camada [360,0 520,0] 2000 X:[-0,2065 0,2065] Velocidade da Onda P (m/s)
4 Estudo de Caso O estudo de caso, para avalar o método de estmação de parâmetros trdmensonal fo realzado em um modelo de referênca de três camadas, e foram realzados os seguntes passos: Descrção do modelo
Leia maisCORRELAÇÃO E REGRESSÃO
CORRELAÇÃO E REGRESSÃO Constata-se, freqüentemente, a estênca de uma relação entre duas (ou mas) varáves. Se tal relação é de natureza quanttatva, a correlação é o nstrumento adequado para descobrr e medr
Leia maisAplicação de Máquinas de Vetor de Suporte na Classificação de Vozes Patológicas Utilizando o Expoente de Hurst
Aplcação de Máqunas de Vetor de Suporte na Classfcação de Vozes Patológcas Utlzando o Expoente de Hurst Jayne dos Santos Lma 1, hamyres âmulla C. Paltó 1, Vnícus Jefferson Das Vera 2, Slvana Cunha Costa
Leia maisDEFINIÇÃO - MODELO LINEAR GENERALIZADO
DEFINIÇÃO - MODELO LINEAR GENERALIZADO 1 Um modelo lnear generalzado é defndo pelos seguntes três componentes: Componente aleatóro; Componente sstemátco; Função de lgação; Componente aleatóro: Um conjunto
Leia maisAprendizagem de Máquina
Plano de Aula Aprendzagem de Máquna Aula 4 Alessandro L. Koerch Aprendzagem Bayesana Introdução Teorema de Bayes e Aprendzagem Concetual Classfcador Ótmo de Bayes Algortmo de Gbbs Classfcador Naïe Bayes
Leia mais5 Relação entre Análise Limite e Programação Linear 5.1. Modelo Matemático para Análise Limite
5 Relação entre Análse Lmte e Programação Lnear 5.. Modelo Matemátco para Análse Lmte Como fo explcado anterormente, a análse lmte oferece a facldade para o cálculo da carga de ruptura pelo fato de utlzar
Leia maisMOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel
MOQ-14 PROJETO e ANÁLISE de EPERIMENTOS Professor: Rodrgo A. Scarpel rodrgo@ta.br www.mec.ta.br/~rodrgo Prncípos de cração de modelos empírcos: Modelos (matemátcos, lógcos, ) são comumente utlzados na
Leia maisCAPITULO II - FORMULAÇAO MATEMATICA
CAPITULO II - FORMULAÇAO MATEMATICA II.1. HIPOTESES BASICAS A modelagem aqu empregada está baseado nas seguntes hpóteses smplfcadoras : - Regme permanente; - Ausênca de forças de campo; - Ausênca de trabalho
Leia maisAnálise Exploratória de Dados
Análse Exploratóra de Dados Objetvos Análse de duas varáves quanttatvas: obter uma reta que se ajuste aos dados segundo o crtéro de mínmos quadrados; apresentar outros crtéros para a determnação de uma
Leia maisCréditos. SCC0173 Mineração de Dados Biológicos. Conteúdo. Métodos Particionais (Sem Sobreposição)
SCC7 Mneração de Dados Bológcos Agrupamento de Dados Partes III & IV: Métodos Partconas e Valdação Crédtos O materal a segur consste de adaptações e etensões dos orgnas: gentlmente ceddos pelo Prof. Eduardo
Leia maisCLUSTERIZAÇÃO AUTOMÁTICA NA REDUÇÃO DA DIMENSIONALIDADE DOS DADOS
CLUSTERIZAÇÃO AUTOMÁTICA NA REDUÇÃO DA DIMENSIONALIDADE DOS DADOS Éldman de Olvera Nunes Escola de Admnstração do Exércto Rua Terrtóro do Amapá, 455, 41.540-830, Salvador, BA, Brasl eldman.nunes@gmal.com
Leia maisRepresentação e Descrição de Regiões
Depos de uma magem ter sdo segmentada em regões é necessáro representar e descrever cada regão para posteror processamento A escolha da representação de uma regão envolve a escolha dos elementos que são
Leia maisProf. Lorí Viali, Dr.
Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Prof. Lorí Val, Dr. UFRG Insttuto de Matemátca
Leia mais4. Sistemas Neuro-Fuzzy
4. Sstemas Neuro-Fuzzy Neste capítulo será apresentado o sstema híbrdo Neuro-Fuzzy, o qual é a combnação das técncas de fuzzy e redes neuras. Alguns modelos Neuro-Fuzzy já desenvolvdos na lteratura são
Leia maisNOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES 1 O nosso objetvo é estudar a relação entre duas varáves quanttatvas. Eemplos:. Idade e altura das cranças.. v. Tempo de prátca de esportes e rtmo cardíaco
Leia maisCurso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos
Curso de extensão, MMQ IFUSP, feverero/4 Alguns exercíco báscos I Exercícos (MMQ) Uma grandeza cujo valor verdadero x é desconhecdo, fo medda três vezes, com procedmentos expermentas dêntcos e, portanto,
Leia maisPrograma do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall
Sstemas Intelgentes Aplcados Carlos Hall Programa do Curso Lmpeza/Integração de Dados Transformação de Dados Dscretzação de Varáves Contínuas Transformação de Varáves Dscretas em Contínuas Transformação
Leia maisModelo Logístico. Modelagem multivariável com variáveis quantitativas e qualitativas, com resposta binária.
Modelagem multvarável com varáves quanttatvas e qualtatvas, com resposta bnára. O modelo de regressão não lnear logístco ou modelo logístco é utlzado quando a varável resposta é qualtatva com dos resultados
Leia maisProf. Lorí Viali, Dr.
Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ 1 É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Numa relação expermental os valores de uma das
Leia mais2 Lógica Fuzzy Introdução
2 Lógca Fuzzy 2.. Introdução A lógca fuzzy é uma extensão da lógca booleana, ntroduzda pelo Dr. Loft Zadeh da Unversdade da Calfórna / Berkeley no ano 965. Fo desenvolvda para expressar o conceto de verdade
Leia maisUma abordagem Multi-objetiva Híbrida para Seleção e Atribuição de Pesos a Características para Classificadores k-nn
Uma abordagem Mult-objetva Híbrda para Seleção e Atrbução de Pesos a Característcas para Classfcadores k-nn Salomão S. Madero, Joás E. Souza, Carmelo J. A. Bastos Flho e Adrano L. I. Olvera Departamento
Leia maisQ 1-1,5(Q3-Q1) < X i < Q 3 + 1,5(Q 3 -Q 1 ) Q 3 +1,5(Q 3 -Q 1 ) < X i < Q 3 +3(Q 3 -Q 1 ) Q 1 3(Q 3 -Q 1 ) < X i < Q 1 1,5(Q 3 -Q 1 )
DIGRM OX-PLOT E CRCTERIZÇÃO DE OUTLIERS E VLORES EXTREMOS Outlers e valores extremos são aqueles que estão muto afastados do centro da dstrbução. Uma forma de caracterzá-los é através do desenho esquemátco
Leia mais5 Formulação para Problemas de Potencial
48 Formulação para Problemas de Potencal O prncpal objetvo do presente capítulo é valdar a função de tensão do tpo Westergaard obtda para uma trnca com abertura polnomal (como mostrado na Fgura 9a) quando
Leia maisDesenvolvimento de software de simulação Monte Carlo para auxiliar no estudo da propagação de doenças infecciosas
Desenvolvmento de software de smulação Monte Carlo para auxlar no estudo da propagação de doenças nfeccosas João Batsta dos Santos-Flho 1, Tatana Santos de Araujo Batsta 2, José Carlos Rodrgues Olvera
Leia maisMETODOLOGIA PARA O CÁLCULO DE VAZÃO DE UMA SEÇÃO TRANSVERSAL A UM CANAL FLUVIAL. Iran Carlos Stalliviere Corrêa RESUMO
Semnáro Anual de Pesqusas Geodéscas na UFRGS, 2. 2007. UFRGS METODOLOGIA PARA O CÁLCULO DE VAZÃO DE UMA SEÇÃO TRANSVERSAL A UM CANAL FLUVIAL Iran Carlos Stallvere Corrêa Insttuto de Geocêncas UFRGS Departamento
Leia maisDiferença entre a classificação do PIB per capita e a classificação do IDH
Curso Bem Estar Socal Marcelo Ner - www.fgv.br/cps Metas Socas Entre as mutas questões decorrentes da déa de se mplementar uma proposta de metas socas temos: Qual a justfcatva econômca para a exstênca
Leia maisAssociação entre duas variáveis quantitativas
Exemplo O departamento de RH de uma empresa deseja avalar a efcáca dos testes aplcados para a seleção de funconáros. Para tanto, fo sorteada uma amostra aleatóra de 50 funconáros que fazem parte da empresa
Leia mais7 Tratamento dos Dados
7 Tratamento dos Dados 7.. Coefcentes de Troca de Calor O úmero de usselt local é dado por h( r )d u ( r ) (7-) k onde h(r), o coefcente local de troca de calor é h( r ) q''- perdas T q''- perdas (T( r
Leia maisMETOLOGIA. 1. Histórico
METOLOGIA A Sondagem da Construção Cvl do RS é uma sondagem de opnão empresaral realzada mensalmente e fo crada pela Confederação Naconal da Indústra (CNI) com o apoo da Câmara Braslera da Indústra da
Leia maisCapítulo 2. APROXIMAÇÕES NUMÉRICAS 1D EM MALHAS UNIFORMES
Capítulo. Aproxmações numércas 1D em malhas unformes 9 Capítulo. AROXIMAÇÕS NUMÉRICAS 1D M MALHAS UNIFORMS O prncípo fundamental do método das dferenças fntas (MDF é aproxmar através de expressões algébrcas
Leia maisAprendizagem de Máquina
Introdução Aprendzagem de Máquna Alessandro L. Koerch Redes Bayesanas A suposção Naïve Bayes da ndependênca condconal (a 1,...a n são condconalmente ndependentes dado o valor alvo v): Reduz a complexdade
Leia maisExperiência V (aulas 08 e 09) Curvas características
Experênca (aulas 08 e 09) Curvas característcas 1. Objetvos 2. Introdução 3. Procedmento expermental 4. Análse de dados 5. Referêncas 1. Objetvos Como no expermento anteror, remos estudar a adequação de
Leia maisReconhecimento de Padrões
Capítulo 2 Reconhecmento de Padrões 2.1 O que é reconhecmento de padrões? Há duas maneras de se reconhecer e/ou classfcar um padrão [CONNEL, S. D. & JAIN, A. K. (2001)]: () classfcação supervsonada: o
Leia mais4 Discretização e Linearização
4 Dscretzação e Lnearzação Uma vez defndas as equações dferencas do problema, o passo segunte consste no processo de dscretzação e lnearzação das mesmas para que seja montado um sstema de equações algébrcas
Leia maisClassificação e Pesquisa de Dados
Classcação por Trocas Classcação e Pesqusa de Dados Aula 05 Classcação de dados por Troca:, ntrodução ao Qucksort UFRGS INF01124 Classcação por comparação entre pares de chaves, trocando-as de posção caso
Leia maisMODELOS DE REGRESSÃO PARAMÉTRICOS
MODELOS DE REGRESSÃO PARAMÉTRICOS Às vezes é de nteresse nclur na análse, característcas dos ndvíduos que podem estar relaconadas com o tempo de vda. Estudo de nsufcênca renal: verfcar qual o efeto da
Leia maisGráficos de Controle para Processos Autocorrelacionados
Gráfcos de Controle para Processos Autocorrelaconados Gráfco de controle de Shewhart: observações ndependentes e normalmente dstrbuídas. Shewhart ao crar os gráfcos de controle não exgu que os dados fossem
Leia maisAprendizagem de Máquina
Aprendzagem de Máquna Aprendzado baseado em nstâncas Aprendzado não-paramétrco Quando as suposções fetas por métodos paramétrcos não são váldas para todo o espaço de entrada, provocando erros predtvos
Leia maisMáquinas de Vetores de Suporte Supprot Vector Machine. Aluizio Fausto Ribeiro Araújo Universidade Federal de Pernambuco Centro de Informática
Máqunas de Vetores de Suporte Supprot Vector Machne Aluzo Fausto Rbero Araújo Unversdade Federal de Pernambuco Centro de Informátca Conteúdo. Introdução 2. Classfcadores Bnáros 3. Aprendzagem Estatístca
Leia maisPsicologia Conexionista Antonio Roque Aula 8 Modelos Conexionistas com tempo contínuo
Modelos Conexonstas com tempo contínuo Mutos fenômenos de aprendzado assocatvo podem ser explcados por modelos em que o tempo é uma varável dscreta como nos casos vstos nas aulas anterores. Tas modelos
Leia maisRISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16%
Análse de Rsco 1 RISCO Rsco possbldade de perda. Quanto maor a possbldade, maor o rsco. Exemplo: Empresa X va receber $ 1.000 de uros em 30 das com títulos do governo. A empresa Y pode receber entre $
Leia maisCURSO de ESTATÍSTICA Gabarito
UNIVERSIDADE FEDERAL FLUMINENSE TRANSFERÊNCIA o semestre letvo de 010 e 1 o semestre letvo de 011 CURSO de ESTATÍSTICA Gabarto INSTRUÇÕES AO CANDIDATO Verfque se este caderno contém: PROVA DE REDAÇÃO com
Leia maisAprendizagem de Máquina
Plano de Aula Aprendzagem de Máquna Aprendzagem Não Supervsonada Alessandro L. Koerch Aprendzagem não supervsonada Algortmos de agrupamento (Clusterng) Seqüencas Herárqucos Baseados na otmzação de funções
Leia maisANÁLISE DAS TENSÕES TÉRMICAS EM MATERIAIS CERÂMICOS. Palavras-chave: Tensões térmicas, Propriedades variáveis, Condução de calor, GITT
ANÁLISE DAS TENSÕES TÉRMICAS EM MATERIAIS CERÂMICOS Dnz, L.S. Santos, C.A.C. Lma, J.A. Unversdade Federal da Paraíba Laboratóro de Energa Solar LES/DTM/CT/UFPB 5859-9 - João Pessoa - PB, Brasl e-mal: cabral@les.ufpb.br
Leia maisPrograma de Certificação de Medidas de um laboratório
Programa de Certfcação de Meddas de um laboratóro Tratamento de dados Elmnação de dervas Programa de calbração entre laboratóros Programa nterno de calbração justes de meddas a curvas Tratamento dos resultados
Leia maisModelo de Alocação de Vagas Docentes
Reunão Comssão de Estudos de Alocação de Vagas Docentes da UFV Portara 0400/2016 de 04/05/2016 20 de mao de 2016 Comssão de Estudos das Planlhas de Alocação de Vagas e Recursos Ato nº 009/2006/PPO 19/05/2006
Leia maisDIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS
177 DIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS Antôno Carlos da Slva Flho Un-FACEF Introdução Trend Strps (TS) são uma nova técnca de análse da dnâmca de um sstema,
Leia maisUM NOVO MÉTODO KERNEL PARA A ANÁLISE DISCRIMINANTE DE SEQUÊNCIAS BIOLÓGICAS
UM NOVO MÉTODO KERNEL PARA A ANÁLISE DISCRIMINANTE DE SEQUÊNCIAS BIOLÓGICAS RAUL FONSECA NETO Departamento de Cênca da Computação UFJF raulfonsecaneto@g.com.br VICTOR S. DE A. MENESES Programa de Pós-Graduação
Leia maisCap. IV Análise estatística de incertezas aleatórias
TLF 010/11 Cap. IV Análse estatístca de ncertezas aleatóras Capítulo IV Análse estatístca de ncertezas aleatóras 4.1. Méda 43 4.. Desvo padrão 44 4.3. Sgnfcado do desvo padrão 46 4.4. Desvo padrão da méda
Leia maisVariação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.
Aplcação Por exemplo, se prepararmos uma área expermental com todo cudado possível e fzermos, manualmente, o planto de 100 sementes seleconadas de um mlho híbrdo, cudando para que as sementes fquem na
Leia mais8 - Medidas Descritivas
8 - Meddas Descrtvas 8. Introdução Ao descrevemos um conjunto de dados por meo de tabelas e gráfcos temos muto mas nformações sobre o comportamento de uma varável do que a própra sére orgnal de dados.
Leia maisModelagem do crescimento de clones de Eucalyptus via modelos não lineares
Modelagem do crescmento de clones de Eucalyptus va modelos não lneares Joselme Fernandes Gouvea 2 Davd Venanco da Cruz 3 Máco Augusto de Albuquerque 3 José Antôno Alexo da Slva Introdução Os fenômenos
Leia maisALGORITMOS PARA RECONHECIMENTO DE PADRÕES
ALGORITMOS PARA RECONHECIMENTO DE PADRÕES ARMANDO ANTONIO MONTEIRO DE CASTRO PEDRO PAULO LEITE DO PRADO Departamento de Engenhara Elétrca Unversdade de Taubaté RESUMO O obetvo prncpal desse trabalho fo
Leia mais