11/04/2017. Período 4: Indexação automática. processamento da linguagem natural. Indexação

Tamanho: px
Começar a partir da página:

Download "11/04/2017. Período 4: Indexação automática. processamento da linguagem natural. Indexação"

Transcrição

1 Perío 4: Indexação automática processamento da linguagem natural Indexação 1

2 Indexação A indexação de um cumento visa representar o seu conteú temático por meio de um conjunto de termos com o objetivo de sintetizar o seu conteú, ressaltan o que lhe é essencial. Os termos de indexação servem também como pontos de acesso mediante os quais o cumento é localiza e recupera em um sistema de informação. Lancaster (2004, p.18) distingue is tipos de indexação: indexação por extração A seleção s termos fica restrita ao contexto próprio cumento. O indexar, utilizan critérios institucionais e pessoais, seleciona no texto palavras que serão utilizas para representar o cumento. indexação por atribuição. Utiliza-se de um elemento externo ao cumento, um conjunto de termos previamente definis e normalizas (léxico) cuja complexidade pode variar deste uma lista de cabeçalhos de assunto até um tesauro ou uma ontologia. Após a leitura texto, o indexar escolhe os termos mais adequas para representar o conteú informacional cumento. Indexação automática 2

3 Indexação Automática Embora a prática da indexação possa ser regulada por políticas e princípios institucionais, o processo de indexação manual é dependente de critérios subjetivos e pessoais relacionas à formação e experiência indexar. Assim, o tempo despendi e a qualidade da indexação ficam fortemente atrelas a fatores não controláveis, o que pode afetar o custo desse processo. As dificuldades inerentes à indexação manual e a grande quantidade de cumentos publicas e disponibilizas, justificaram estus que buscavam soluções alternativas para auxiliar o indexar no exercício de sua atividade. As primeiras pesquisas em indexação automática aconteceram no final s anos de A popularização da microinformática a partir s anos de 1980, mas principalmente o surgimento da Web nos anos de 1990 fez com que o nível de interesse nas pesquisas sobre indexação automática permanecesse praticamente constante até os dias de hoje. Indexação Automática Vantagens: baixo custo da indexação automática; facilidade de aplicação a grandes conjuntos de cumentos homogeneidade desse processo quan realizas por algoritmos computacionais. O resulta da indexação realizada por seres humanos pode variar de um indexar para outro, bem como de um mesmo indexar em momentos diferentes. Um sistema computacional irá realizar a indexação de maneira uniforme, utilizan sempre os mesmos critérios para o qual foi programa, independentemente da quantidade de cumentos ou de qualquer fator externo (ANDERSON; PEREZ-CARBALLO, 2001): 3

4 Indexação Automática: tipos De forma semelhante à sua classificação da indexação manual, Lancaster (2004, p.285) identifica is tipos de indexação automática: indexação por extração automática realizada geralmente por meio de cálculos matemáticos de frequência das palavras encontradas no texto de um cumento. indexação por atribuição automática é utiliza um elemento externo aos textos com o objetivo de normalizar os termos de indexação atribuís aos cumentos. Indexação por extração automática 4

5 Indexação por extração automática A maioria s métos de indexação automática busca selecionar termos s próprios textos s cumentos; Tais métos pressupõem que os significantes, as palavras, são os únicos elementos passíveis de serem operas computacionalmente em um texto.; Assim, os termos de indexação são resultantes de cálculos estatísticos e sucessivas operações algorítmicas aplicadas às palavras de um ou de um conjunto de textos. Indexação por extração automática Na literatura, é recorrente a referência a George Kingsley Zipf ( ) como pioneiro nos estus estatísticos texto. Linguista da Universidade de Harvard, Zipf apresentou a sua lei empírica na obra Human Behaviour and the Principle of Least Effort (ZIPF, 1949). Analisan a obra Ulisses, de James Joyce, Zipf observou que em um texto suficientemente longo, se listarmos as palavras em ordem decrescente de frequência, a posição de cada palavra multiplicada por sua frequência resulta um valor praticamente constante 5

6 Indexação por extração automática Posição Palavra Frequência Posição x Frequência 1 A B C D E 2 10 Zipf Law Indexação por extração automática Utilizan a lei de Zipf como ponto de partida, Hans Peter Luhn sugeriu que certas palavras poderiam ser automaticamente extraídas de um texto a fim de representar o próprio texto. Porém, nem todas as palavras seriam bons termos de indexação e nem tos os termos de indexação contribuem igualitariamente na representação conteú informacional texto. Luhn propôs técnicas para identificar e atribuir pesos aos termos de indexação. Palavras mais significativas são as palavras de frequência média. As palavras com frequência muito baixa seriam pouco significativas na representação cumento; As palavras muito frequentes teriam baixo poder para representar o conteú informacional cumento. 6

7 Indexação por extração automática f = frequência r = posição relativa da palavra (ranking) Indexação por extração automática PROCESSO 1. Identificação das palavras (tokens) texto; 2. Remoção de palavras muito frequentes que são insuficientemente específicas para representar o conteú cumento (stop words); 3. Redução das palavras a uma forma normalizada ou ao seu radical (stemming); 4. Formação de termos compostos como termos de indexação; 5. Cálculo s pesos de cada termo; 7

8 Tokenizer Uma viagem pelas trilhas da Mata Atlântica, um s biomas mais conhecis Brasil e que possui uma das maiores biodiversidades mun. Essa é a proposta estande Projeto Biomas, desenvolvi pela Confederação da Agricultura e Pecuária Brasil (CNA) e a Empresa Brasileira de Pesquisa Agropecuária (Embrapa), em parceria com o Instituto Capixaba de Pesquisa, Assistência Técnica e Extensão Rural (Incaper), durante a 10ª Semana Estadual de Ciência e Tecnologia, que acontece entre 22 a 25 de outubro, em Vitória - Espírito Santo. No estande Projeto Biomas, os visitantes conhecerão mudas de plantas nativas da Mata Atlântica, como a aroeira, e produtos da floresta, como a juçara, a qual poderá ser degustada. Para as crianças, haverá telas interativas com jogos didáticos sobre a Mata Atlântica. Para os adultos, serão disponibilizadas mudas que estão sen cultivadas na área experimental projeto. No espaço, também haverá um pequeno laboratório, com caixas de insetos com espécies da Mata Atlântica e extração de nutrientes de amostras de solo retiradas local onde é desenvolvi o projeto. O Projeto Biomas tem o objetivo de avaliar e viabilizar soluções com árvores para a proteção, recuperação e o uso sustentável de propriedades rurais nos seis biomas brasileiros. O Espírito Santo, por meio Incaper, coordena as ações bioma Mata Atlântica, contribuin com pesquisas científicas, respostas e modelos possíveis de serem replicas, que promovam a inserção da árvore na propriedade rural, explicou a coordenara bioma Mata Atlântica, Fabiana Gomes Ruas. Os projetos de pesquisa desse bioma estão distribuís na área experimental localizada na Fazenda São Marcos, e na Área de Referência da Reserva Natural Vale, em Sooretama. Uma viagem pelas trilhas da Mata Atlântica um s biomas mais conhecis Brasil e que possui uma das maiores biodiversidade s mun Essa é a proposta estande Projeto Biomas desenvolvi pela Confederação da Agricultura e Pecuária Brasil... Tokenizer Objetivo Identificar e isolar os tokens de um texto; Algumas dificuldades Abreviações, Siglas e Acrônimos Célula Tronco - CT Ciência da Informação CI UNESP Universidade Estadual Paulista Utilização de hifens; MS-DOS; couve-flor; célula-tronco; Números e Datas; Transformações Letras maiúsculas e minúsculas (?) Nomes próprios Abreviações, siglas e acrônimos transformar em seu formato completo utilizan um dicionário; 8

9 Stop List Uma viagem pelas trilhas da Mata Atlântica um s biomas mais conhecis Brasil e que possui uma das maiores biodiversidades mun Essa é a proposta estande Projeto Biomas desenvolvi pela Confederação da Agricultura E Pecuária Brasil... a da das s e é essa mais pela pelas que um uma... Lista de Stopwords (Stoplist) Uma viagem pelas trilhas da Mata Atlântica um s biomas mais conhecis Brasil e que possui uma das maiores biodiversidades mun Essa é a proposta estande Projeto Biomas desenvolvi pela Confederação da Agricultura e Pecuária Brasil... Stop List As palavras de um texto não possuem o mesmo valor semântico. StopList (dicionário negativo) é uma lista de palavras (StopWords) que não podem ser escolhidas como termos de indexação; A eliminação das stopwords traz a vantagem de melhorar desempenho no processamento das demais palavras texto e uma redução espaço de armazenamento; 9

10 Stemming Livro Livros Andar Andei Andamos Andarei Nadar Nadan Nadarei Nau Nadei Livro Andar ou And Nadar ou Nad Stemming É o processo de redução das variantes morfológicas das palavras para seus radicais. Eliminação de afixos (prefixos e sufixos) das palavras; Assume-se que palavras com o mesmo radical são semanticamente relacionadas e possuem o mesmo significa; Na recuperação de informação tem por objetivo melhorar os resultas de busca, padronizan tanto os termos de indexação como os termos de busca; Stemming também reduz o número de termos de indexação mapean as variações morfológicas s termos para uma forma padronizada; 10

11 Termos Compostos Termos compostos carregam maior semântica que as palavras que os compõem. Principalmente os sintagmas nominais são bons indicares conteú informacional texto; Banco de das Base de conhecimento Ciência da Informação A utilização de termos compostos na indexação melhora a precisão da recuperação de informação, pois são menos ambíguos. Termos Compostos Reconhecimento de Nomes Próprios Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métos Dicionário de nomes Letras maiúsculas Algumas palavras indicativas como Ltda, SA, Sr., Sra. 11

12 Complexidade da língua Abrin um parêntesis Indexação por extração automática Anáfora É um elemento linguístico que estabelece uma referência dependente com um termo antecedente; Catáfora João está ente. Eu o visitei na semana passada. Ana comprou um cão. O animal já conhece tos os cantos da casa. Os experimentos foram realizas em um ambiente controla. Eles comprovaram a eficácia méto. Termo ou expressão que faz referência a um termo subsequente, estabelecen com ele uma dependência. A irmã olhou-o e disse: João, estás com um ar cansa; Os materiais utilizas nos experimentos foram estes: Azimute, Falácia Hidropônica e Manjericão. 12

13 Indexação por extração automática Elipse É a supressão de uma palavra facilmente subentendida. Consiste da omissão de um termo facilmente identificável pelo contexto ou por elementos gramaticais presentes na frase com a intenção de tornar o texto mais conciso e elegante. Zeugma Na estante, livros e mais livros. (omissão verbo haver) Tão bom se ela estivesse viva me ver assim. (Tão bom seria se ela estivesse viva para me ver assim.) Caso especial de Elipse. É a omissão de um termo que já fora expresso anteriormente. Ele prefere um passeio pela praia; eu, cinema. (não repetição verbo preferir) Vamos jogar só nós is? Você chuta para mim e eu para você (não repetição verbo chutar) Fechan parêntesis 13

14 Atribuição de pesos O processo de indexação gera um conjunto de termos de indexação (palavras, radicais ou termo composto) para representar um texto. Porém, tais termos não possuem a mesma importância na tarefa de representar o conteú informacional de um cumento; Um indicar de importância (peso) pode ser associa a cada termo; Atribuição de pesos Frequência de um termo em um cumento tf i = frequência de ocorrência termo i no texto A ocorrência de um termo em um texto curto é mais significante em um texto longo. A utilização logaritmo reduz a importância da frequência termo em um coleção (corpus) com grande variação s tamanhos s textos. log(tf i ) ou ln(tf i ) 14

15 Indexação por extração automática Atribuição de pesos Frequência de um termo nos cumentos de um corpus Em quanto mais cumentos um termo ocorrer, menor a importância desse termo; O peso de um termo é inversamente relaciona ao número de cumentos em que ele ocorre. idf = log (N / ni) N = número de cumentos no corpus ni = número de cumentos que possui o termo i Indexação por extração automática Atribuição de pesos A medida idf é dependente corpus. Conforme o número de cumentos for varian com o tempo, os pesos s cumentos precisam ser recalculas.; Essa característica desencoraja a sua utilização. Porém, a ideia é utilizada em diversas outras medidas desenvolvidas; Essa medida ficou conhecida pela multiplicação de tf com idf: tf x idf O peso de um termo i em um cumento d pode ser expressa como: wi,d = tfi,d x idfi Os melhores termos de indexação (maios pesos) são aqueles que aparecem com grande frequência em um determina cumento, mas aparece poucas vezes em outros cumentos; 15

16 Indexação por extração automática d1 d2 d3 A vida imita a arte e a natureza A vida representa a vida A natureza imita a natureza Term frequence ( tf ) c vida imita arte representa natureza d d2 2 1 d3 1 2 Indexação por extração automática Term frequence ( tf ) c vida imita arte representa natureza d d2 2 1 d3 1 2 Document Frequence & Inverse cument frequence termo vida imita arte representa natureza df idf 0,176 0, ,176 idf = log ( N / df ) N = 3 16

17 Indexação por extração automática Term frequence ( tf ) c vida imita arte representa natureza d d2 2 1 d3 1 2 Document Frequence (df) & Inverse cument frequence (idf) termo vida imita arte representa natureza df idf 0, ,176 tf x idf c vida imita arte representa natureza d1 0,176 0, ,176 d2 0,352 0,477 d3 0,176 0,352 Indexação por extração automática d1 d2 d3 A vida imita a arte e a natureza A vida representa a vida A natureza imita a natureza vida imita arte natureza vida representa imita natureza

18 Indexação por atribuição automática Indexação por atribuição automática A extração de termos de um texto é uma tarefa realizada de forma relativamente satisfatória por computares, e apresenta como vantagem a padronização e a coerência (homogeneidade), característicos s processos algorítmicos. Porém, segun Lancaster (2004, p.289), a maior parte da indexação realizada por seres humanos é a indexação por atribuição, utilizan um vocabulário controla como ferramenta normalizara. Um vocabulário controla é essencialmente uma lista de termos autorizas. Porém, a estrutura terminológica de um vocabulário controla pode ir muito além de uma mera lista, poden incluir uma forma de estrutura semântica destinada especialmente a: controlar sinônimos optan-se por uma única forma padronizada, com remissivas de todas as outras formas; diferenciar homógrafos; reunir ou ligar termos cujos significas apresentem uma relação estreita; 18

19 Indexação por atribuição automática Uma maneira obvia de automatizar a indexação por atribuição é criar para cada termo vocabulário controla um perfil de palavras ou expressões que costumam ocorrer nos cumentos aos quais um indexar humano atribuiria esse termo. Assim, a indexação se dá em duas fazes: em uma primeira etapa extraem-se palavras ou expressões texto por meio de técnicas estatísticas. Em uma segunda fase, partin desse conjunto de palavras/expressões, seleciona-se no vocabulário controla o termo cujo perfil possui certo nível de coincidente. Indexação por atribuição automática Os vocabulários controlas podem ser disponibilizas para os usuários de um sistema de informação, permitin que tenham acesso à terminologia empregada na indexação s cumentos. Isto possibilita compatibilizar a linguagem s usuários à linguagem utilizada na representação cumentos, resultan em uma recuperação mais eficiente. 19

20 Indexação por atribuição automática x y z Perfil Termo a, b, x T1 y, z T2 d, e, f T3 T1, T2 Críticas à Indexação Automática 20

21 Críticas à indexação automática Algumas técnicas comuns na recuperação de informação, como a utilização de listas de stopwords e a normalização das variações linguísticas s termos (stemming), podem dificultar o julgamento de relevância de um cumento ou descontextualizar um determina termo (Riloff, 1995). A presença termo morto em um cumento não garante que o cumento descreva um assassinato. Porém, a frase morto a tiros possui uma conotação de crime. A presença termo assassinato (singular) em um cumento é um indicar de que o cumento descreve um assassinato específico. Já a presença termo assassinatos (plural) pressupõe que o texto descreva diferentes assassinatos ou fale sobre assassinatos de uma forma geral. Preposições, formas verbais, afirmações positivas ou negativas, podem ser significantes para determinar o senti de uma frase. Processamento da linguagem natural 21

22 Processamento da linguagem natural O Processamento da Linguagem Natural (PLN) surge como uma possível abordagem s problemas relacionas à recuperação de informação pela simples observação de que os cumentos e as expressões de busca formuladas pelos usuários são objetos linguísticos. O PLN é um conjunto de técnicas computacionais para a análise de textos em um ou mais níveis linguísticos, com o propósito de simular o processamento humano da língua. O desenvolvimento de sistemas de recuperação de informação que podem entender os cumentos exige técnicas computacionais de grande complexidade. Por esta razão, na maioria das vezes as técnicas de PLN são utilizadas apenas na melhoria desempenho de algumas tarefas da recuperação de informação tradicional, como a indexação automática (FALOUTSOS; OARD, 1995). Processamento da linguagem natural Normalização de variações linguísticas normalização morfológica stemming, reduz uma palavra ao seu radical (stem) por meio da eliminação de afixos oriuns de derivação ou de flexão; redução à forma canônica, processo também conheci como lematização, que geralmente reduz os verbos ao infinitivo e os adjetivos e substantivos à forma masculina singular. normalização sintática ocorre quan há a transformação de frases semanticamente equivalentes mas sintaticamente diferentes, em uma forma única e representativa das mesmas eficiente processo rápi e processo rápi e eficiente, que poderiam ter uma representação comum; normalização léxico-semântica ocorre quan são utilizas relacionamentos semânticos (como a sinonímia) entre os itens lexicais para criar um agrupamento de similaridades semânticas, identifica por um item lexical que representa um conceito único. 22

23 Processamento da linguagem natural Identificação de termos compostos Termos compostos são identificas para que possam também ser usas como termos de indexação; Os termos compostos geralmente apresentam menor ambiguidade e maior especificidade que os itens lexicais simples; Nos sistemas de recuperação de informação os termos compostos são geralmente identificas por meio de cálculos de co-ocorrência de pares de palavras. A utilização da análise sintática permite identificar termos compostos mesmo quan as palavras que compõem o termo não são adjacentes ou não co-ocorrem com grande frequência. Segun Croft, Turtle e Lewis (1991), a extração de termos compostos por meios puramente sintáticos frequentemente não apresenta bons resultas. Uma combinação de técnicas de PLN com métos estatísticos é mais eficaz (LEWIS, 1992). Processamento da linguagem natural Lewis e Jones (1996) notam que o grau de sofisticação PLN poderia ser consideravelmente maior para as expressões de busca s usuários que para os cumentos; A importância em entender quais são as necessidades usuário, visto que geralmente as suas expressões de busca são muito mais curtas (com poucos termos). Eventuais erros no processamento s cumentos podem ser corrigis (ou pelo menos compensas) levan em conta outros termos extraís mesmo cumento, o que não é possível para uma expressão de busca. 23

24 Processamento da linguagem natural Resolução de ambiguidade A ambiguidade é a propriedade que faz com que um objeto linguístico, seja uma palavra, um termo composto ou to um texto, possa ser interpreta de mos diferentes. Existem is tipos de ambiguidade: sintática ocorre quan um item lexical pode pertencer a mais de uma classe gramatical, casa pode ser substantivo ou verbo; comprei um cofre com dinheiro ; tenho amigos e parentes muito queris lareira da casa de pedras semântica verbo passar passar a ferro, passar no exame, passar em casa. Processamento da linguagem natural Através PLN a Ciência da Informação se aproxima arsenal metológico da Inteligência Artificial e viabiliza soluções para alguns de seus problemas; O PLN aplica às expressões de busca de um sistema de recuperação de informação assume uma importância considerável na medida em que tenta interpretar a necessidade de informação s usuários. Porém, essa tarefa é dificultada pelo tamanho (número de palavras) reduzi das expressões de busca que geralmente são utilizadas pelos usuários, não permitin uma interpretação adequada das expressões. 24

25 Processamento da linguagem natural A utilização mais importante PLN está na interpretação conteú s cumentos a fim de gerar uma representação adequada destes. No entanto, o PLN não elimina a necessidade da utilização de métos estatísticos e deve ser visto como uma ferramenta complementar aos mesmos. Os procedimentos envolvis no PLN estão geralmente restritos a uma determinada língua como o inglês, o alemão ou, em menor proporção, o português. Essa limitação, aliada ao custo relativamente alto PLN, é um fator que diminui sua atratividade, consideran que os métos estatísticos envolvem menor custo e geralmente são adaptáveis a diversas línguas. Processamento de Linguagem Natural e Recuperação de Informação 25

26 PLN e RI Cross-language information retrieval (CLIR) O idioma de um recurso informacional e o idioma no qual a informação está sen buscada pelo usuário podem ser diferentes. CLIR permite que usuários pesquisem e utilizem a informação que está em um idioma diferente idioma recurso informacional; Por exemplo: Um usuário submete uma consulta em Chinês e o sistema recupera cumentos em Inglês PLN e RI Question answering systems How Many calories are there in a Big Mac? Where is the Taj Mahal? Which film reliased in 2005 dis Brad Pitt act in? Sistema START Pode responder milhões de questões (em Inglês) sobre lugares, filmes, pessoas, definições de dicionário, etc. Exemplo: What is the largest city in Florida? Convert 100 llars into Euros 26

27 PLN e RI Text mining (mineração de texto) Estu desenvolvimento de ferramentas capazes de obter/descobrir informações por meio de extração automática a partir de uma grande coleção de cumentos textuais Information extraction (extração de informação) Subárea das pesquisas em Text Mining que tem por objetivo extrair pedaços úteis de informações de textos em linguagem natural Referências 27

28 Referências ANDERSON, J.D.; PEREZ-CARBALLO, J. The nature of indexing: how humans and machines analyze messages and texts for retrieval - Part I: Research, and the nature of human indexing. Information Processing and Management, v.37, n.2, CROFT, W.B.; TURTLE, H.R.; LEWIS, D.D. The use of phrases and structured queries in information retrieval. Proceedings of the 14th annual international ACM SIGIR conference on research and development in information retrieval, p FALOUTSOS, C.; OARD, D. A survey of information retrieval and filtering methods. Techinical Report CS-TR Department of Computer Science, University of Maryland, LANCASTER, F.W. Indexação e Resumos: teoria e prática. 2ªed. Brasilia, DF: Briquet de Lemos, LEWIS, D.D. An evaluation of phrasal and clustered representation on a text categorization task. Proceedings of the 15th annual international ACM SIGIR conference on research and development in information retrieval, p LEWIS, D.D.; JONES, K.S. Natural Language Processing for Information Retrieval. Communications of the ACM, v. 39, n. 1,1996. p Referências RILOFF, E. (1995) Little words can make a big difference for text classification. Proceedings of the 18 th annual international ACM SIGIR conference on research and development in information retrieval, p ZIPF, G.K. Human Behavior and the Principle of Least Effort. Cambridge, MA: Addison-Wesley,

12/07/2017. Período 4: Indexação automática. processamento da linguagem natural. Indexação

12/07/2017. Período 4: Indexação automática. processamento da linguagem natural. Indexação Perío 4: Indexação automática processamento da linguagem natural Indexação 1 Indexação A indexação de um cumento visa representar o seu conteú temático por meio de um conjunto de termos com o objetivo

Leia mais

Revisão. Meio ambiente da Recuperação de Informação. Linguagem Analógico x Digital

Revisão. Meio ambiente da Recuperação de Informação. Linguagem Analógico x Digital Revisão Meio ambiente da Recuperação de Informação Linguagem Analógico x Digital 1 Recuperação de Informação Recuperação de informação é o nome dado ao processo ou método pelo qual um potencial usuário

Leia mais

Indexação automática. CBD/ECA Indexação: teoria e prática

Indexação automática. CBD/ECA Indexação: teoria e prática Indexação automática CBD/ECA Indexação: teoria e prática Indexação documentária Identificar pela análise dos documentos, os seus assuntos extrair os conceitos que indicam o seu conteúdo traduzir os conceitos

Leia mais

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Motivação e Objetivos Etapas do Desenvolvimento de um Sistema de Recuperação de Informações (SRI): Pré-processamento; Representação; Extração

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Pré-processamento de documentos Organização e Recuperação de Informação(GSI521) Introdução O pré-processamento de

Leia mais

Mineração de Textos na Web

Mineração de Textos na Web Mineração de Textos na Web Luciano Antonio Digiampietri Escola de Artes Ciências e Humanidades da Universidade de São Paulo digiampietri@usp.br Resumo: Com o crescimento das informações disponíveis na

Leia mais

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira Universidade do Sul de Santa Catarina Ciência da Computação Técnicasde InteligênciaArtificial Aula 09 Introdução a Análise de Textos Prof. Max Pereira Processamento de Linguagem Natural Conjunto de técnicas

Leia mais

Linguagens Documentárias. Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília

Linguagens Documentárias. Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília Linguagens Documentárias Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília Contexto Organização da Informação...... procura criar métodos e instrumentos para elaborar

Leia mais

Recapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras

Recapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras Introdução ao Processamento de Línguas Naturais SCC5908 Introdução ao Processamento de Língua Natural Thiago A. S. Pardo Recapitulando... Abordagens superficiais vs. profundas Simbolismo vs. estatística

Leia mais

6 Atributos. A dívida da empresa subiu.

6 Atributos. A dívida da empresa subiu. 6 Atributos Para buscar o sentimento de um texto automaticamente precisamos encontrar boas pistas ao longo do discurso. Uma grande variedade de palavras e expressões possui conotação positiva ou negativa,

Leia mais

Indexação e Construção de Índice. Renato Fernandes Corrêa

Indexação e Construção de Índice. Renato Fernandes Corrêa Indexação e Construção de Índice Renato Fernandes Corrêa Indexação de documentos Consiste de três passos: 1. Definição do vocabulário de indexação 2. Indexação - atribuição de termos de indexação a cada

Leia mais

I-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos

I-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos 17 I-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos Renan Gomes Pereira 1 Maria Fernanda Moura 2 Resumo: O objetivo deste trabalho é apresentar a ferramenta I-Preproc,

Leia mais

Recuperar informação consiste em identificar, no conjunto de documentos de um sistema, quais atendem à necessidade de informação do usuário.

Recuperar informação consiste em identificar, no conjunto de documentos de um sistema, quais atendem à necessidade de informação do usuário. Recuperação de Informação Recuperação de Informação Recuperar informação consiste em identificar, no conjunto de documentos de um sistema, quais atendem à necessidade de informação do usuário. 1 Recuperação

Leia mais

Pôster PRINCÍPIOS PARA UTILIZAÇÃO DE ONTOLOGIAS NA INDEXAÇÃO AUTOMÁTICA. Maria Elisa Valentim Pickler UNESP/MARÍLIA Edberto Ferneda UNESP/MARÍLIA

Pôster PRINCÍPIOS PARA UTILIZAÇÃO DE ONTOLOGIAS NA INDEXAÇÃO AUTOMÁTICA. Maria Elisa Valentim Pickler UNESP/MARÍLIA Edberto Ferneda UNESP/MARÍLIA XIV Encontro Nacional de Pesquisa em Ciência da Informação (ENANCIB 2013) GT 8: Informação e Tecnologia Pôster PRINCÍPIOS PARA UTILIZAÇÃO DE ONTOLOGIAS NA INDEXAÇÃO AUTOMÁTICA Maria Elisa Valentim Pickler

Leia mais

Recuperação de Informação

Recuperação de Informação Recuperação de Informação Avaliação de Desempenho de Sistemas de Recuperação de Informação Renato Fernandes Corrêa 1 Para que avaliar? Existem muitos modelos de RI, mas qual é o melhor? Qual a melhor escolha

Leia mais

Indexação. Profa. Lillian Alvares Faculdade de Ciência da Informação Universidade de Brasília

Indexação. Profa. Lillian Alvares Faculdade de Ciência da Informação Universidade de Brasília Indexação Profa. Lillian Alvares Faculdade de Ciência da Informação Universidade de Brasília 1 Penso, logo existo. Brincadeira feita por Fernando Modesto MODESTIKUS, Bibliotecário Grego René Descartes

Leia mais

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão DATA MINING & MACHINE LEARNING (I) Thiago Marzagão transformando textos em dados Documento 1: Não trabalho para ter clientes; tenho clientes para poder trabalhar. Documento 2: Não se pode forçar a inteligência

Leia mais

Pré-Processamento de Documentos

Pré-Processamento de Documentos Pré-Processamento de Documentos Introdução Pré-Processamento : Análise léxica; Stopwords; Stemming; Vocabulário; Thesaurus Compressão: Fundamentos; Método Estatístico; Método Dicionário; Arquivos Invertidos

Leia mais

Leitura de Documentos. Priscila Engiel

Leitura de Documentos. Priscila Engiel Leitura de Documentos Priscila Engiel pengiel@inf.puc-rio.br Leitura de documentos Leitura de documentos formais que regulam ou descrevem o sistema ou aspectos que interferem em sua execução Quais documentos?

Leia mais

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed Classificação de textos para o ensino de português como segunda língua Pedro Santos Curto Conclusões, Contribuições e Trabalho futuro 1 2 Motivação Aplicações e escala da classificação de textos Motivação

Leia mais

Visualização de Texto e Documento

Visualização de Texto e Documento Visualização de Texto e Documento SCC5836 Visualização Computacional Prof. Fernando V. Paulovich http://www.icmc.usp.br/~paulovic paulovic@icmc.usp.br Instituto de Ciências Matemáticas e de Computação

Leia mais

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING Aluno José Lino Uber Orientador Paulo Roberto Dias Dezembro/2004 Roteiro Introdução Objetivo Conceitos Motivação / Tipos

Leia mais

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Luciana Kayo e Paulo Mei Prof. Dr. Marco Dimas Gubitoso Introdução Inspiração na competição When Bag of Words

Leia mais

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes Descoberta de conhecimento em textos - Análise semântica Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes Introdução Diversidade de textos não padronizados; Emails, artigos,

Leia mais

03/07/2017. Modelo de Recuperação de Informação

03/07/2017. Modelo de Recuperação de Informação Modelo de Recuperação de Informação Modelo de Recuperação de Informação Um modelo de recuperação de informação é a especificação formal de três elementos: a representação dos documentos; a representação

Leia mais

4 Recuperação de Informação

4 Recuperação de Informação 4 Recuperação de Informação No presente capítulo são apresentados os fundamentos da área de Recuperação de Informação utilizados em Mineração de Textos, como por exemplo, os modelos de representação de

Leia mais

O USO DE LINGUAGENS DOCUMENTÁRIAS ALFABÉTICAS NA INDEXAÇÃO AUTOMATIZADA Cristina Miyuki Narukawa 1, Mariângela Spotti Lopes Fujita 2

O USO DE LINGUAGENS DOCUMENTÁRIAS ALFABÉTICAS NA INDEXAÇÃO AUTOMATIZADA Cristina Miyuki Narukawa 1, Mariângela Spotti Lopes Fujita 2 O USO DE LINGUAGENS DOCUMENTÁRIAS ALFABÉTICAS NA INDEXAÇÃO AUTOMATIZADA Cristina Miyuki Narukawa 1, Mariângela Spotti Lopes Fujita 2 1 Mestranda, Universidade Estadual Paulista (UNESP), Marília, São Paulo

Leia mais

Melhorando a Recuperação de Informação

Melhorando a Recuperação de Informação Recuperação de Informação e Web Mining 1 Melhorando a Recuperação de Informação O modelo de espaço vetorial Utiliza pesos para termos Permite o ranqueamento dos resultados Pode reduzir a dimensão do espaço

Leia mais

Ontologias Linguísticas e Processamento de Linguagem Natural. Ygor Sousa CIn/UFPE

Ontologias Linguísticas e Processamento de Linguagem Natural. Ygor Sousa CIn/UFPE Ontologias Linguísticas e Processamento de Linguagem Natural Ygor Sousa CIn/UFPE ycns@cin.ufpe.br 2015 Roteiro Processamento de Linguagem Natural Ontologias Linguísticas WordNet FrameNet Desambiguação

Leia mais

MCZA Processamento de Linguagem Natural Normalização de texto: Palavras e stopwords

MCZA Processamento de Linguagem Natural Normalização de texto: Palavras e stopwords MCZA017-13 Processamento de Linguagem Natural Normalização de texto: Palavras e stopwords Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1 Bibliografia Daniel Jurafsky & James H. Martin. Speech

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Realimentaçãode relevânciae expansão de consultas Organização e Recuperação de Informação(GSI521) Realimentação de

Leia mais

Recuperação de Informação em Bases de Texto

Recuperação de Informação em Bases de Texto Recuperação de Informação em Bases de Texto Mestrado em Engenharia Informática Universidade de Évora 2010/2011 Paulo Quaresma pq@di.uevora.pt http://www.moodle.uevora.pt 1 Objectivos Programa Avaliação

Leia mais

Corretor Gramatical Para o Emacs

Corretor Gramatical Para o Emacs Trabalho de Conclusão de Curso Thiago Maciel batista Orientador: Prof. Dr. Marcelo Finger Instituto de Matemática e Estatística Universidade de São Paulo 16 de novembro de 2010 Roteiro 1 Introdução 2 Processamento

Leia mais

A/ART casa/n caiu/v./. Figura 3.1: Frase com anotação morfossintática.

A/ART casa/n caiu/v./. Figura 3.1: Frase com anotação morfossintática. 3 Tarefa Esse capítulo começa dissertando sobre as vantagens de se agrupar as palavras em classes, como elas são agrupadas em part-of-speechs e suas aplicações. Em seguida é apresentado o Anotador Morfossintático

Leia mais

Lista de exercícios 2 Recuperação de Informação Textual

Lista de exercícios 2 Recuperação de Informação Textual Lista de exercícios 2 Recuperação de Informação Textual 2 de dezembro de 2015 0.1 O que é o modelo bag-of-words? Porque ele é uma simplificação? Dê um exemplo em que ele estaria incorreto. 0.2 O que é

Leia mais

Ferramenta de apoio a identificação de eventos utilizando Linguagem Natural. Aluno: Ricardo Tomelin Orientador: Everaldo Artur Grahl

Ferramenta de apoio a identificação de eventos utilizando Linguagem Natural. Aluno: Ricardo Tomelin Orientador: Everaldo Artur Grahl Ferramenta de apoio a identificação de eventos utilizando Linguagem Natural Aluno: Ricardo Tomelin Orientador: Everaldo Artur Grahl Roteiro 1. Introdução 2. Objetivos 3. Análise Essencial de Sistemas 4.

Leia mais

Indexação e Modelos Clássicos

Indexação e Modelos Clássicos Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Construção de um Sistema de Busca 1ª Etapa: Definir

Leia mais

PROTÓTIPO PARA SUMARIZAÇÃO AUTOMÁTICA DE TEXTOS ESCRITOS EM LÍNGUA PORTUGUESA ALEXANDRE BUSARELLO JOYCE MARTINS

PROTÓTIPO PARA SUMARIZAÇÃO AUTOMÁTICA DE TEXTOS ESCRITOS EM LÍNGUA PORTUGUESA ALEXANDRE BUSARELLO JOYCE MARTINS PROTÓTIPO PARA SUMARIZAÇÃO AUTOMÁTICA DE TEXTOS ESCRITOS EM LÍNGUA PORTUGUESA ALEXANDRE BUSARELLO JOYCE MARTINS Roteiro Introdução Objetivos Fundamentação Teórica Especificação Implementação Operacionalidade

Leia mais

3 Recuperação de Informações Textuais

3 Recuperação de Informações Textuais 3 Recuperação de Informações Textuais Tudo deveria se tornar o mais simples possível, mas não simplificado. Albert Einstein Sistemas tradicionais de indexação costumam utilizar-se de termos-índice, que

Leia mais

Inteligência Artificial. Prof. Esp. Pedro Luís Antonelli Anhanguera Educacional

Inteligência Artificial. Prof. Esp. Pedro Luís Antonelli Anhanguera Educacional Inteligência Artificial Prof. Esp. Pedro Luís Antonelli Anhanguera Educacional OBJETIVOS : Introduzir o estudo Processamento de Linguagem Natural. Histórico O processamento de linguagem natural, nasceu

Leia mais

Medidas de Avaliação

Medidas de Avaliação Medidas de Avaliação Medidas de Avaliação Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum é o tempo e o espaço. Quanto menor

Leia mais

Os efeitos do paralelismo e relações de thesaurus em uma ferramenta de busca em bases textuais

Os efeitos do paralelismo e relações de thesaurus em uma ferramenta de busca em bases textuais 72 Resumos Expandidos: XII Mostra de Estagiários e Bolsistas... Os efeitos do paralelismo e relações de thesaurus em uma ferramenta de busca em bases textuais Renan Gomes Pereira¹ Maria Fernanda Moura²

Leia mais

Mineração de Textos. Mineração de Textos

Mineração de Textos. Mineração de Textos Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semi-estruturados

Leia mais

Realimentação de Relevância

Realimentação de Relevância Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Ciclo de realimentação onde uma consulta q recebida do usuário é transformada em uma consulta modificada

Leia mais

Semântica no Reconhecedor Gramatical Linguístico

Semântica no Reconhecedor Gramatical Linguístico Workshop de Tecnologias Adaptativas WTA 2015 Semântica no Reconhecedor Gramatical Linguístico Ana Contier, Djalma Padovani, João José Neto Linguagem Natural - Desafios Crescente quantidade de documentos

Leia mais

GSI024 - Organização e Recuperação da

GSI024 - Organização e Recuperação da GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI Arquivo 6 - Modelo Vetorial GSI024-ORI Pg:6. 1 Ranking baseado no modelo vetorial Considerações

Leia mais

Verificação automática de substantivos compostos através de reconhecimento de padrões sintáticos

Verificação automática de substantivos compostos através de reconhecimento de padrões sintáticos Universidade Federal do Rio Grande do Sul Grupo de Processamento de Linguagens Naturais Projeto Expressões Multipalavras Verificação automática de substantivos compostos através de reconhecimento de padrões

Leia mais

A CASA DO SIMULADO DESAFIO QUESTÕES MINISSIMULADO 103/360

A CASA DO SIMULADO DESAFIO QUESTÕES MINISSIMULADO 103/360 1 DEMAIS SIMULADOS NO LINK ABAIXO CLIQUE AQUI REDE SOCIAL SIMULADO 103/360 PORTUGUÊS INSTRUÇÕES TEMPO: 30 MINUTOS MODALIDADE: CERTO OU ERRADO 30 QUESTÕES CURTA NOSSA PÁGINA MATERIAL LIVRE Este material

Leia mais

Identificação e Tratamento de Expressões Multipalavras aplicado à Recuperação de Informação

Identificação e Tratamento de Expressões Multipalavras aplicado à Recuperação de Informação Universidade Federal do Rio Grande do Sul Instituto de Informática Programa de Pós-Graduação em Computação Identificação e Tratamento de Expressões Multipalavras aplicado à Recuperação de Informação Otávio

Leia mais

Descoberta de conhecimento em redes sociais e bases de dados públicas

Descoberta de conhecimento em redes sociais e bases de dados públicas Descoberta de conhecimento em redes sociais e bases de dados públicas Trabalho de Formatura Supervisionado Bacharelado em Ciência da Computação - IME USP Aluna: Fernanda de Camargo Magano Orientadora:

Leia mais

O PAVEL: curso interativo de Terminologia

O PAVEL: curso interativo de Terminologia Disponível em:< http://www.termiumplus.gc.ca/didacticiel_tutorial/portugues/lecon1/indexe_p.html> Acesso em: 01/03/2011. O PAVEL: curso interativo de Terminologia Glossário Abreviação Designação formada

Leia mais

Hierarquias de conceitos extraídas automaticamente de corpus de domínio específico Um experimento sobre um corpus de Pediatria

Hierarquias de conceitos extraídas automaticamente de corpus de domínio específico Um experimento sobre um corpus de Pediatria Hierarquias de conceitos extraídas automaticamente de corpus de domínio específico Um experimento sobre um corpus de Pediatria Lucelene Lopes, Renata Vieira, Daniel Martins Grupo Processamento de Linguagem

Leia mais

Manual OntoLP. 1-Introdução ao OntoLP Instalação do OntoLP Executando o OntoLP Observação Importante...4

Manual OntoLP. 1-Introdução ao OntoLP Instalação do OntoLP Executando o OntoLP Observação Importante...4 Manual OntoLP Sumário: 1-Introdução ao OntoLP...2 2-Instalação do OntoLP...2 3-Executando o OntoLP...2 4-Observação Importante...4 5-Aba de Carga do Corpus...5 6-Aba de Extração de Termos...7 7- Aba de

Leia mais

MODELO DE CLASSIFICAÇÃO AUTOMÁTICA DE QUESTÕES NA LÍNGUA PORTUGUESA Henrique Maia Braum 1, Sandro José Rigo 1, Jorge L. V.

MODELO DE CLASSIFICAÇÃO AUTOMÁTICA DE QUESTÕES NA LÍNGUA PORTUGUESA Henrique Maia Braum 1, Sandro José Rigo 1, Jorge L. V. CINTED- Novas Tecnologias na Educação 1 MODELO DE CLASSIFICAÇÃO AUTOMÁTICA DE QUESTÕES NA LÍNGUA PORTUGUESA Henrique Maia Braum 1, Sandro José Rigo 1, Jorge L. V. Barbosa 1 1 UNISINOS Universidade do Vale

Leia mais

Castro (2008, p.7) define a palavra ontologia de forma mais simplificada:

Castro (2008, p.7) define a palavra ontologia de forma mais simplificada: Recuperação de Informação baseada em Castro (2008, p.7) define a palavra ontologia de forma mais simplificada: Ela é o resultado da junção de dois termos gregos onta (entes) e logos (teoria, discurso,

Leia mais

Flávio Codeço Coelho, Bruno Cuconato TEXT ANALYTICS EM DOCUMENTOS HISTÓRICOS SENSÍVEIS: CONFIANÇA E ESCALABILIDADE 1 / 19

Flávio Codeço Coelho, Bruno Cuconato TEXT ANALYTICS EM DOCUMENTOS HISTÓRICOS SENSÍVEIS: CONFIANÇA E ESCALABILIDADE 1 / 19 TEXT ANALYTICS EM DOCUMENTOS HISTÓRICOS SENSÍVEIS: CONFIANÇA E ESCALABILIDADE Flávio Codeço Coelho Bruno Cuconato TEXT ANALYTICS EM DOCUMENTOS HISTÓRICOS SENSÍVEIS: CONFIANÇA E ESCALABILIDADE 1 / 19 Coleções,

Leia mais

Uma Abordagem de Extração de Terminologia Para a Construção de uma Representação Atributo-valor a Partir de Documentos Não Estruturados

Uma Abordagem de Extração de Terminologia Para a Construção de uma Representação Atributo-valor a Partir de Documentos Não Estruturados Uma Abordagem de Extração de Terminologia Para a Construção de uma Representação Atributo-valor a Partir de Documentos Não Estruturados Daniel de Faveri Honorato 1, Maria Carolina Monard 1, and Huei Diana

Leia mais

Categorização Automática de Textos Baseada em Mineração de Textos

Categorização Automática de Textos Baseada em Mineração de Textos Fábio de Azevedo Soares Categorização Automática de Textos Baseada em Mineração de Textos Tese de Doutorado Tese apresentada como requisito parcial para obtenção do grau de Doutor pelo Programa de Pós-graduação

Leia mais

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO Sistema de Sumarização Automática de Textos Baseado em Classes de Documentos PROPOSTA DE TRABALHO DE GRADUAÇÃO

Leia mais

Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+

Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+ Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informática Programa de Pós-Graduação em Ciência da Computação Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo

Leia mais

ELABORAÇÃO DE ESTRATÉGIAS DE BUSCA. Conceito Dicas de Pesquisa Uso dos Operadores Booleanos

ELABORAÇÃO DE ESTRATÉGIAS DE BUSCA. Conceito Dicas de Pesquisa Uso dos Operadores Booleanos ELABORAÇÃO DE ESTRATÉGIAS DE BUSCA Conceito Dicas de Pesquisa Uso dos Operadores Booleanos PESQUISA PASSO A PASSO Quando vamos fazer uma pesquisa é necessário saber: - O QUE PESQUISAR? - COMO PESQUISAR?

Leia mais

Elipse consiste na omissão de um termo facilmente identificável pelo contexto ou por elementos gramaticais presentes na frase com a intenção de

Elipse consiste na omissão de um termo facilmente identificável pelo contexto ou por elementos gramaticais presentes na frase com a intenção de Elipse consiste na omissão de um termo facilmente identificável pelo contexto ou por elementos gramaticais presentes na frase com a intenção de tornar o texto mais conciso e elegante. Ex.: Risco de vida.

Leia mais

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a 1 Introdução 1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a partir de dados. Existem diversas aplicações

Leia mais

Português. Índice de aulas. Tipologias textuais

Português. Índice de aulas. Tipologias textuais Índice de aulas Tipologias textuais Texto narrativo Ação e personagens Espaço e tempo Narrador e modalidades do discurso Narrativas de tradição popular Chocolate à Chuva: as férias de Mariana Chocolate

Leia mais

INICIAÇÃO À PESQUISA

INICIAÇÃO À PESQUISA MINICURSO INICIAÇÃO À PESQUISA MÓDULO 2: Análise Bibliométrica LABORATÓRIO DE MÉTODOS QUALITATIVOS E QUANTITATIVOS EM ADMINISTRAÇÃO E CIÊNCIAS SOCIAIS APLICADAS INSTRUTORES: CHRISLAINE CAROLINE DE SOUZA

Leia mais

Sistemas de Recomendação Uma abordagem geral

Sistemas de Recomendação Uma abordagem geral Sistemas de Recomendação Uma abordagem geral Universidade Estadual de Maringá Departamento de Informática Programa de Pós-Graduação Mestrado em Ciência da Computação Disciplina: Seminários II Aluna: Késsia

Leia mais

Tabela Hash: Índice remissivo

Tabela Hash: Índice remissivo Capítulo 3 Tabela Hash: Índice remissivo Um índice remissivo lista os termos e tópicos que são abordados em um documento juntamente com páginas em que aparecem. É bastante comum encontrar tais índices

Leia mais

Uma avaliação de analisadores morfológicos do português

Uma avaliação de analisadores morfológicos do português Uma avaliação de analisadores morfológicos do português Jéssica O. de Souza, André C. Santiago, Katiuscia de M. Andrade, Mardônio J. C. de França, Hélio L. B. Silva, Ananda L. Freire, Leonel F. de Alencar,

Leia mais

Sistemas de PROFA. LILLIAN ALVARES FACULDADE DE CIÊNCIA DA INFORMAÇÃO

Sistemas de PROFA. LILLIAN ALVARES FACULDADE DE CIÊNCIA DA INFORMAÇÃO Sistemas de Organização do Conhecimento PROFA. LILLIAN ALVARES FACULDADE DE CIÊNCIA DA INFORMAÇÃO UNIVERSIDADE DE BRASÍLIA Sistemas de Organização do Conhecimento tem como principal p objetivo...... a

Leia mais

Determinação do Grau de Similaridade entre Frases

Determinação do Grau de Similaridade entre Frases Determinação do Grau de Similaridade entre Frases UC 21095 Projeto Final Licenciatura em Informática Estudante nº 1100194: Helena Sofia Felisberto Coelho Orientadora: Prof.ª Gracinda Carvalho Lisboa, setembro

Leia mais

Sumário da aula. 2 Declaração De Princípios Internacionais De Catalogação. 1 tipos de catálogos. 3 Glossário básico. 4 Referências

Sumário da aula. 2 Declaração De Princípios Internacionais De Catalogação. 1 tipos de catálogos. 3 Glossário básico. 4 Referências Sumário da aula 1 tipos de catálogos 1.1a Internos ou auxiliares 1.1b Internos ou auxiliares 1.1.1 Catálogo de identidade 1.1.1.1 Exemplo de registro para de Catálogo de identidade 1.1.1.2 Exemplo de registro

Leia mais

2 Processo de Mineração de Textos

2 Processo de Mineração de Textos 2 Processo de Mineração de Textos O estudo em geral, a busca da verdade e da beleza são domínios em que nos é consentido ficar crianças toda a vida. Albert Einstein O processo de mineração de textos pode

Leia mais

Indexação automática e semântica: estudo da análise do conteúdo de teses e dissertações

Indexação automática e semântica: estudo da análise do conteúdo de teses e dissertações Grupo de Estudos sobre Organização e Representação do Conhecimento (GEORC) UNESP de Marília DISCUSSÃO DO TEXTO - Indexação automática e semântica: estudo da análise do conteúdo de teses e dissertações..

Leia mais

Identifique um número! MINERAÇÃO DE DADOS E TEXTOS MOTIVAÇÃO. Observe a imagem... SCC-230 Inteligência Artificial

Identifique um número! MINERAÇÃO DE DADOS E TEXTOS MOTIVAÇÃO. Observe a imagem... SCC-230 Inteligência Artificial MINERAÇÃO DE DADOS E TEXTOS SCC-230 Inteligência Artificial Solange Oliveira Rezende Bruno Magalhães Nogueira Thiago A. S. Pardo MOTIVAÇÃO Observe a imagem... Identifique um número! 2 1 MOTIVAÇÃO 3 MOTIVAÇÃO

Leia mais

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I MCZA017-13 Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1 Bibliografia Daniel Jurafsky & James H. Martin.

Leia mais

A QUESTÃO DAS PALAVRAS- CHAVE E A PROPOSTA DO USO DE VOCABULÁRIO CONTROLADO PARA AS REVISTAS CIENTÍFICAS DA UNESP

A QUESTÃO DAS PALAVRAS- CHAVE E A PROPOSTA DO USO DE VOCABULÁRIO CONTROLADO PARA AS REVISTAS CIENTÍFICAS DA UNESP I Encontro de Editores de Revistas Científicas da Unesp A QUESTÃO DAS PALAVRAS- CHAVE E A PROPOSTA DO USO DE VOCABULÁRIO CONTROLADO PARA AS REVISTAS CIENTÍFICAS DA UNESP Fábio Sampaio Rosas Rosane Rodrigues

Leia mais

Vocabulário controlado e palavras-chave em repositórios digitais: relato de experiência do repositório institucional da FGV

Vocabulário controlado e palavras-chave em repositórios digitais: relato de experiência do repositório institucional da FGV Powered by TCPDF (www.tcpdf.org) Vocabulário controlado e palavras-chave em repositórios digitais: relato de experiência do repositório institucional da FGV Márcia Nunes Bacha (FGV) - marcia.bacha@fgv.br

Leia mais

AGRUPAMENTO DE ESCOLAS GENERAL SERPA PINTO - CINFÃES 2014 / 2015 CRITÉRIOS GERAIS DE AVALIAÇÃO 1.º CICLO

AGRUPAMENTO DE ESCOLAS GENERAL SERPA PINTO - CINFÃES 2014 / 2015 CRITÉRIOS GERAIS DE AVALIAÇÃO 1.º CICLO AGRUPAMENTO DE ESCOLAS GENERAL SERPA PINTO - CINFÃES 2014 / 2015 CRITÉRIOS GERAIS DE AVALIAÇÃO 1.º CICLO DIRETRIZES GERAIS CRITÉRIOS GERAIS DE AVALIAÇÃO No Pré- escolar, resulta da ponderação das evidências

Leia mais

25/04/2017. Modelo de Recuperação de Informação

25/04/2017. Modelo de Recuperação de Informação Modelo de Recuperação de Informação Modelo de Recuperação de Informação Um modelo de recuperação de informação é a especificação formal de três elementos: a representação dos documentos; a representação

Leia mais

NEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases

NEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases NEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases Rafael de Oliveira Teixeira 1, Eloize Rossi Marques Seno 1, Helena de Medeiros Caseli 2 1 Instituto Federal de São Paulo câmpus

Leia mais

Módulo 2: Análise Bibliométrica Bibliometria: Conceito, Leis e Princípios; Lei de Bradford; Lei de Lotka; Leis de Zipf; Ponto de Transição (T) de

Módulo 2: Análise Bibliométrica Bibliometria: Conceito, Leis e Princípios; Lei de Bradford; Lei de Lotka; Leis de Zipf; Ponto de Transição (T) de Módulo 2: Análise Bibliométrica Bibliometria: Conceito, Leis e Princípios; Lei de Bradford; Lei de Lotka; Leis de Zipf; Ponto de Transição (T) de Goffman; Zona de ocorrência de palavras de Rouault; Outros

Leia mais

INTERPRETAÇÃO DE TEXTOS MECANISMOS DE COESÃO TEXTUAL (PARTE VI)

INTERPRETAÇÃO DE TEXTOS MECANISMOS DE COESÃO TEXTUAL (PARTE VI) INTERPRETAÇÃO DE TEXTOS MECANISMOS DE COESÃO TEXTUAL (PARTE VI) RECURSOS ESTILÍSTICOS DE COESÃO: ELIPSE E ZEUGMA São duas importantes figuras de linguagem que funcionam como recursos coesivos por excelência,

Leia mais

Combinando Fatores de Ponderação para Melhorar a

Combinando Fatores de Ponderação para Melhorar a Computer on the Beach 2014 - Artigos Completos 32 Combinando Fatores de Ponderação para Melhorar a Classificação de Textos Frederico P. de Souza 1, Patrick M. Ciarelli 2, Elias de Oliveira 1 1 Departamento

Leia mais

ORIENTAÇÕES DE RESPOSTA DAS ATIVIDADES FORMATIVAS 1

ORIENTAÇÕES DE RESPOSTA DAS ATIVIDADES FORMATIVAS 1 ORIENTAÇÕES DE RESPOSTA DAS ATIVIDADES FORMATIVAS 1 Resumo analítico indicativo Sequência de palavras-chave Definição de conceitos ORIENTAÇÕES DE RESPOSTA DAS ATIVIDADES FORMATIVAS NOTA: Além da capacidade

Leia mais

Organização da Informação

Organização da Informação Organização da Informação P R O F A. L I L L I A N A L V A R E S F A C U L D A D E D E C I Ê N C I A D A I N F O R M A Ç Ã O U N I V E R S I D A D E D E B R A S Í L I A Organização da Informação Na Ciência

Leia mais

REDAÇÃO PARA CONCURSOS

REDAÇÃO PARA CONCURSOS REDAÇÃO PARA CONCURSOS Sumário Primeira Parte Primeira Lição Poesia matemática Gramática acentuação gráfica Tipos de palavras Regras gerais Dupla prosódia Pronúncia duvidosa Orientação Ortográfica emprego

Leia mais

Plano de Trabalho Docente Ensino Técnico

Plano de Trabalho Docente Ensino Técnico Plano de Trabalho Docente 2016 Ensino Técnico Plano de Curso nº 246 aprovado pela portaria Cetec nº 181 de 26/09/2013 Etec: ETEC Paulino Botelho Código: 091 Município:São Carlos-SP Eixo Tecnológico: Controle

Leia mais

MINERAÇÃO DE DADOS. Thiago Marzagão MINERAÇÃO DE TEXTOS. marzagao.1@osu.edu. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/2016 1 / 25

MINERAÇÃO DE DADOS. Thiago Marzagão MINERAÇÃO DE TEXTOS. marzagao.1@osu.edu. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/2016 1 / 25 MINERAÇÃO DE DADOS Thiago Marzagão marzagao.1@osu.edu MINERAÇÃO DE TEXTOS Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/2016 1 / 25 transformando textos em dados Documento 1: "Não trabalho para ter clientes;

Leia mais

Desenvolvimento de Sistemas de Extração de Informações para Ambientes Colaborativos na Web

Desenvolvimento de Sistemas de Extração de Informações para Ambientes Colaborativos na Web Desenvolvimento de Sistemas de Extração de Informações para Ambientes Colaborativos na Web Douglas Nogueira 1, Vladia Pinheiro 2, Vasco Furtado 1, Tarcisio Pequeno 1 1 Mestrado em Informática Aplicada

Leia mais

CTCH DEPARTAMENTO DE LETRAS

CTCH DEPARTAMENTO DE LETRAS CTCH DEPARTAMENTO DE LETRAS CATEGORIAS FUNCIONAIS NO DESENVOLVIMENTO LINGUÍSTICO E NO QUADRO DE DEL (DÉFICIT ESPECIFICAMENTE LINGUÍSTICO): EXPLORANDO SEMELHANÇAS E DISTINÇÕES ENTRE DEL E DÉFICIT DE APRENDIZAGEM

Leia mais

Extração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso

Extração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso Extração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso Paulo César Polastri 1,2, Helena de Medeiros Caseli 1,2, Eloize Rossi Marques Seno 2,3 1 Departamento de Computação,

Leia mais

ESTRATÉGIAS DE INFERÊNCIA LEXICAL EM L2 ESTUDO DA ANÉLISE GRAMATICAL 1. INTRODUÇÃO

ESTRATÉGIAS DE INFERÊNCIA LEXICAL EM L2 ESTUDO DA ANÉLISE GRAMATICAL 1. INTRODUÇÃO ESTRATÉGIAS DE INFERÊNCIA LEXICAL EM L2 ESTUDO DA ANÉLISE GRAMATICAL VITÓRIA OSÓRIO FERREIRA 1 ;LAURA SILVA DE SOUZA²; ALESSANDRA BALDO ³ 1 Universidade Federal de Pelotas - vitoriaosorio@hotmail.com ²Universidade

Leia mais

HORÁRIO DE RECUPERAÇÃO 7 o ANO. Componente Curricular DATA. 1 a SEMANA DESENHO GEOMÉTRICO / ARTES VISUAIS. História CIÊNCIAS MATEMÁTICA 1

HORÁRIO DE RECUPERAÇÃO 7 o ANO. Componente Curricular DATA. 1 a SEMANA DESENHO GEOMÉTRICO / ARTES VISUAIS. História CIÊNCIAS MATEMÁTICA 1 12 COLÉGIO AGOSTINIANO MENDEL HORÁRIO DE RECUPERAÇÃO 7 o ANO DATA 03/12 (sábado) 05/12 (2 a feira) 06/12 (3 a feira) 07/12 (4 a feira) 08/12 (5 a feira) 09/12 (6 a feira) 10/12 (sábado) Componente Curricular

Leia mais

Aula 2 BD Introdução. Profa. Elaine Faria UFU

Aula 2 BD Introdução. Profa. Elaine Faria UFU Aula 2 BD Introdução Profa. Elaine Faria UFU - 2017 Motivação A quantidade de informação disponível está crescendo exponencialmente Os dados e as informações tem um papel importante para as organizações

Leia mais

Aula10 OUTRAS ESTRUTURAS ORACIONAIS POR SUBORDINAÇÃO

Aula10 OUTRAS ESTRUTURAS ORACIONAIS POR SUBORDINAÇÃO Aula10 OUTRAS ESTRUTURAS ORACIONAIS POR SUBORDINAÇÃO META Apresentar construções oracionais subordinadas por infinitivo, gerúndio, subjuntivo e indicativo. OBJETIVOS Ao final desta aula, o aluno deverá:

Leia mais

Matéria: Desenho e desenvolvimento de tecnologias linguísticas

Matéria: Desenho e desenvolvimento de tecnologias linguísticas Introdução às tecnologias linguísticas Pablo Gamallo Otero Departamento de Língua Espanhola Universidade de Santiago de Compostela Matéria: Desenho e desenvolvimento de tecnologias linguísticas Mestrado

Leia mais

AGRUPAMENTO DE ESCOLAS SEBASTIÃO DA GAMA

AGRUPAMENTO DE ESCOLAS SEBASTIÃO DA GAMA AGRUPAMENTO DE ESCOLAS SEBASTIÃO DA GAMA INFORMAÇÃO-PROVA DE EQUIVALÊNCIA À FREQUÊNCIA Português - Prova escrita e oral 2016 Prova 61 2º Ciclo do Ensino Básico (Decreto Lei 17/2016, de 4 de abril de 2016.)

Leia mais

Avaliação de um método de mapeamento de laudos médicos para uma representação estruturada: estudo de caso com laudos de endoscopia digestiva alta

Avaliação de um método de mapeamento de laudos médicos para uma representação estruturada: estudo de caso com laudos de endoscopia digestiva alta Avaliação de um método de mapeamento de laudos médicos para uma representação estruturada: estudo de caso com laudos de endoscopia digestiva alta Daniel de Faveri Honorato 1, Maria Carolina Monard 2, Huei

Leia mais

Problemas de Escrita. Graça Nunes Thiago Pardo

Problemas de Escrita. Graça Nunes Thiago Pardo Problemas de Escrita Graça Nunes Thiago Pardo Qual é o problema? A transformada de Hough é um algoritmo muito conhecido em visão computacional, mas a sua aplicação em alguns sistemas de tempo real é proibitiva,

Leia mais