Perío 4: Indexação automática processamento da linguagem natural Indexação 1
Indexação A indexação de um cumento visa representar o seu conteú temático por meio de um conjunto de termos com o objetivo de sintetizar o seu conteú, ressaltan o que lhe é essencial. Os termos de indexação servem também como pontos de acesso mediante os quais o cumento é localiza e recupera em um sistema de informação. Lancaster (2004, p.18) distingue is tipos de indexação: indexação por extração A seleção s termos fica restrita ao contexto próprio cumento. O indexar, utilizan critérios institucionais e pessoais, seleciona no texto palavras que serão utilizas para representar o cumento. indexação por atribuição. Utiliza-se de um elemento externo ao cumento, um conjunto de termos previamente definis e normalizas (léxico) cuja complexidade pode variar deste uma lista de cabeçalhos de assunto até um tesauro ou uma ontologia. Após a leitura texto, o indexar escolhe os termos mais adequas para representar o conteú informacional cumento. Indexação automática 2
Indexação Automática Embora a prática da indexação possa ser regulada por políticas e princípios institucionais, o processo de indexação manual é dependente de critérios subjetivos e pessoais relacionas à formação e experiência indexar. Assim, o tempo despendi e a qualidade da indexação ficam fortemente atrelas a fatores não controláveis, o que pode afetar o custo desse processo. As dificuldades inerentes à indexação manual e a grande quantidade de cumentos publicas e disponibilizas, justificaram estus que buscavam soluções alternativas para auxiliar o indexar no exercício de sua atividade. As primeiras pesquisas em indexação automática aconteceram no final s anos de 1950. A popularização da microinformática a partir s anos de 1980, mas principalmente o surgimento da Web nos anos de 1990 fez com que o nível de interesse nas pesquisas sobre indexação automática permanecesse praticamente constante até os dias de hoje. Indexação Automática Vantagens: baixo custo da indexação automática; facilidade de aplicação a grandes conjuntos de cumentos homogeneidade desse processo quan realizas por algoritmos computacionais. O resulta da indexação realizada por seres humanos pode variar de um indexar para outro, bem como de um mesmo indexar em momentos diferentes. Um sistema computacional irá realizar a indexação de maneira uniforme, utilizan sempre os mesmos critérios para o qual foi programa, independentemente da quantidade de cumentos ou de qualquer fator externo (ANDERSON; PEREZ-CARBALLO, 2001): 3
Indexação Automática: tipos De forma semelhante à sua classificação da indexação manual, Lancaster (2004, p.285) identifica is tipos de indexação automática: indexação por extração automática realizada geralmente por meio de cálculos matemáticos de frequência das palavras encontradas no texto de um cumento. indexação por atribuição automática é utiliza um elemento externo aos textos com o objetivo de normalizar os termos de indexação atribuís aos cumentos. Indexação por extração automática 4
A maioria s métos de indexação automática busca selecionar termos s próprios textos s cumentos; Tais métos pressupõem que os significantes, as palavras, são os únicos elementos passíveis de serem operas computacionalmente em um texto.; Assim, os termos de indexação são resultantes de cálculos estatísticos e sucessivas operações algorítmicas aplicadas às palavras de um ou de um conjunto de textos. Na literatura, é recorrente a referência a George Kingsley Zipf (1902-1950) como pioneiro nos estus estatísticos texto. Linguista da Universidade de Harvard, Zipf apresentou a sua lei empírica na obra Human Behaviour and the Principle of Least Effort (ZIPF, 1949). Analisan a obra Ulisses, de James Joyce, Zipf observou que em um texto suficientemente longo, se listarmos as palavras em ordem decrescente de frequência, a posição de cada palavra multiplicada por sua frequência resulta um valor praticamente constante 5
Posição Palavra Frequência Posição x Frequência 1 A 10 10 2 B 5 10 3 C 3 9 4 D 3 12 5 E 2 10 Zipf Law Utilizan a lei de Zipf como ponto de partida, Hans Peter Luhn sugeriu que certas palavras poderiam ser automaticamente extraídas de um texto a fim de representar o próprio texto. Porém, nem todas as palavras seriam bons termos de indexação e nem tos os termos de indexação contribuem igualitariamente na representação conteú informacional texto. Luhn propôs técnicas para identificar e atribuir pesos aos termos de indexação. Palavras mais significativas são as palavras de frequência média. As palavras com frequência muito baixa seriam pouco significativas na representação cumento; As palavras muito frequentes teriam baixo poder para representar o conteú informacional cumento. 6
Indexação por extração automática f = frequência r = posição relativa da palavra (ranking) PROCESSO 1. Identificação das palavras (tokens) texto; 2. Remoção de palavras muito frequentes que são insuficientemente específicas para representar o conteú cumento (stop words); 3. Redução das palavras a uma forma normalizada ou ao seu radical (stemming); 4. Formação de termos compostos como termos de indexação; 5. Cálculo s pesos de cada termo; 7
Tokenizer Uma viagem pelas trilhas da Mata Atlântica, um s biomas mais conhecis Brasil e que possui uma das maiores biodiversidades mun. Essa é a proposta estande Projeto Biomas, desenvolvi pela Confederação da Agricultura e Pecuária Brasil (CNA) e a Empresa Brasileira de Pesquisa Agropecuária (Embrapa), em parceria com o Instituto Capixaba de Pesquisa, Assistência Técnica e Extensão Rural (Incaper), durante a 10ª Semana Estadual de Ciência e Tecnologia, que acontece entre 22 a 25 de outubro, em Vitória - Espírito Santo. No estande Projeto Biomas, os visitantes conhecerão mudas de plantas nativas da Mata Atlântica, como a aroeira, e produtos da floresta, como a juçara, a qual poderá ser degustada. Para as crianças, haverá telas interativas com jogos didáticos sobre a Mata Atlântica. Para os adultos, serão disponibilizadas mudas que estão sen cultivadas na área experimental projeto. No espaço, também haverá um pequeno laboratório, com caixas de insetos com espécies da Mata Atlântica e extração de nutrientes de amostras de solo retiradas local onde é desenvolvi o projeto. O Projeto Biomas tem o objetivo de avaliar e viabilizar soluções com árvores para a proteção, recuperação e o uso sustentável de propriedades rurais nos seis biomas brasileiros. O Espírito Santo, por meio Incaper, coordena as ações bioma Mata Atlântica, contribuin com pesquisas científicas, respostas e modelos possíveis de serem replicas, que promovam a inserção da árvore na propriedade rural, explicou a coordenara bioma Mata Atlântica, Fabiana Gomes Ruas. Os projetos de pesquisa desse bioma estão distribuís na área experimental localizada na Fazenda São Marcos, e na Área de Referência da Reserva Natural Vale, em Sooretama. Uma viagem pelas trilhas da Mata Atlântica um s biomas mais conhecis Brasil e que possui uma das maiores biodiversidade s mun Essa é a proposta estande Projeto Biomas desenvolvi pela Confederação da Agricultura e Pecuária Brasil... Tokenizer Objetivo Identificar e isolar os tokens de um texto; Algumas dificuldades Abreviações, Siglas e Acrônimos Célula Tronco - CT Ciência da Informação CI UNESP Universidade Estadual Paulista Utilização de hifens; MS-DOS; couve-flor; célula-tronco; Números e Datas; Transformações Letras maiúsculas e minúsculas (?) Nomes próprios Abreviações, siglas e acrônimos transformar em seu formato completo utilizan um dicionário; 8
Stop List Uma viagem pelas trilhas da Mata Atlântica um s biomas mais conhecis Brasil e que possui uma das maiores biodiversidades mun Essa é a proposta estande Projeto Biomas desenvolvi pela Confederação da Agricultura E Pecuária Brasil... a da das s e é essa mais pela pelas que um uma... Lista de Stopwords (Stoplist) Uma viagem pelas trilhas da Mata Atlântica um s biomas mais conhecis Brasil e que possui uma das maiores biodiversidades mun Essa é a proposta estande Projeto Biomas desenvolvi pela Confederação da Agricultura e Pecuária Brasil... Stop List As palavras de um texto não possuem o mesmo valor semântico. StopList (dicionário negativo) é uma lista de palavras (StopWords) que não podem ser escolhidas como termos de indexação; A eliminação das stopwords traz a vantagem de melhorar desempenho no processamento das demais palavras texto e uma redução espaço de armazenamento; 9
Stemming Livro Livros Andar Andei Andamos Andarei Nadar Nadan Nadarei Nau Nadei Livro Andar ou And Nadar ou Nad Stemming É o processo de redução das variantes morfológicas das palavras para seus radicais. Eliminação de afixos (prefixos e sufixos) das palavras; Assume-se que palavras com o mesmo radical são semanticamente relacionadas e possuem o mesmo significa; Na recuperação de informação tem por objetivo melhorar os resultas de busca, padronizan tanto os termos de indexação como os termos de busca; Stemming também reduz o número de termos de indexação mapean as variações morfológicas s termos para uma forma padronizada; 10
Termos Compostos Termos compostos carregam maior semântica que as palavras que os compõem. Principalmente os sintagmas nominais são bons indicares conteú informacional texto; Banco de das Base de conhecimento Ciência da Informação A utilização de termos compostos na indexação melhora a precisão da recuperação de informação, pois são menos ambíguos. Termos Compostos Reconhecimento de Nomes Próprios Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métos Dicionário de nomes Letras maiúsculas Algumas palavras indicativas como Ltda, SA, Sr., Sra. 11
Complexidade da língua Abrin um parêntesis Anáfora É um elemento linguístico que estabelece uma referência dependente com um termo antecedente; Catáfora João está ente. Eu o visitei na semana passada. Ana comprou um cão. O animal já conhece tos os cantos da casa. Os experimentos foram realizas em um ambiente controla. Eles comprovaram a eficácia méto. Termo ou expressão que faz referência a um termo subsequente, estabelecen com ele uma dependência. A irmã olhou-o e disse: João, estás com um ar cansa; Os materiais utilizas nos experimentos foram estes: Azimute, Falácia Hidropônica e Manjericão. 12
Elipse É a supressão de uma palavra facilmente subentendida. Consiste da omissão de um termo facilmente identificável pelo contexto ou por elementos gramaticais presentes na frase com a intenção de tornar o texto mais conciso e elegante. Zeugma Na estante, livros e mais livros. (omissão verbo haver) Tão bom se ela estivesse viva me ver assim. (Tão bom seria se ela estivesse viva para me ver assim.) Caso especial de Elipse. É a omissão de um termo que já fora expresso anteriormente. Ele prefere um passeio pela praia; eu, cinema. (não repetição verbo preferir) Vamos jogar só nós is? Você chuta para mim e eu para você (não repetição verbo chutar) Fechan parêntesis 13
Atribuição de pesos O processo de indexação gera um conjunto de termos de indexação (palavras, radicais ou termo composto) para representar um texto. Porém, tais termos não possuem a mesma importância na tarefa de representar o conteú informacional de um cumento; Um indicar de importância (peso) pode ser associa a cada termo; Atribuição de pesos Frequência de um termo em um cumento tf i = frequência de ocorrência termo i no texto A ocorrência de um termo em um texto curto é mais significante em um texto longo. A utilização logaritmo reduz a importância da frequência termo em um coleção (corpus) com grande variação s tamanhos s textos. log(tf i ) ou ln(tf i ) 14
Atribuição de pesos Frequência de um termo nos cumentos de um corpus Em quanto mais cumentos um termo ocorrer, menor a importância desse termo; O peso de um termo é inversamente relaciona ao número de cumentos em que ele ocorre. idf = log (N / ni) N = número de cumentos no corpus ni = número de cumentos que possui o termo i Atribuição de pesos A medida idf é dependente corpus. Conforme o número de cumentos for varian com o tempo, os pesos s cumentos precisam ser recalculas.; Essa característica desencoraja a sua utilização. Porém, a ideia é utilizada em diversas outras medidas desenvolvidas; Essa medida ficou conhecida pela multiplicação de tf com idf: tf x idf O peso de um termo i em um cumento d pode ser expressa como: wi,d = tfi,d x idfi Os melhores termos de indexação (maios pesos) são aqueles que aparecem com grande frequência em um determina cumento, mas aparece poucas vezes em outros cumentos; 15
d1 d2 d3 A vida imita a arte e a natureza A vida representa a vida A natureza imita a natureza Term frequence ( tf ) c vida imita arte representa natureza d1 1 1 1 1 d2 2 1 d3 1 2 Term frequence ( tf ) c vida imita arte representa natureza d1 1 1 1 1 d2 2 1 d3 1 2 Document Frequence & Inverse cument frequence termo vida imita arte representa natureza df 2 2 1 1 2 idf 0,176 0,176 0.477 0.477 0,176 idf = log ( N / df ) N = 3 16
Term frequence ( tf ) c vida imita arte representa natureza d1 1 1 1 1 d2 2 1 d3 1 2 Document Frequence (df) & Inverse cument frequence (idf) termo vida imita arte representa natureza df 2 2 1 1 2 idf 0,176 0.176 0.477 0.477 0,176 tf x idf c vida imita arte representa natureza d1 0,176 0,176 0.477 0,176 d2 0,352 0,477 d3 0,176 0,352 d1 d2 d3 A vida imita a arte e a natureza A vida representa a vida A natureza imita a natureza vida 0.176 imita 0.176 arte 0.477 natureza 0.176 vida 0.352 representa 0.477 imita 0.176 natureza 0.352 17
Indexação por atribuição automática Indexação por atribuição automática A extração de termos de um texto é uma tarefa realizada de forma relativamente satisfatória por computares, e apresenta como vantagem a padronização e a coerência (homogeneidade), característicos s processos algorítmicos. Porém, segun Lancaster (2004, p.289), a maior parte da indexação realizada por seres humanos é a indexação por atribuição, utilizan um vocabulário controla como ferramenta normalizara. Um vocabulário controla é essencialmente uma lista de termos autorizas. Porém, a estrutura terminológica de um vocabulário controla pode ir muito além de uma mera lista, poden incluir uma forma de estrutura semântica destinada especialmente a: controlar sinônimos optan-se por uma única forma padronizada, com remissivas de todas as outras formas; diferenciar homógrafos; reunir ou ligar termos cujos significas apresentem uma relação estreita; 18
Indexação por atribuição automática Uma maneira obvia de automatizar a indexação por atribuição é criar para cada termo vocabulário controla um perfil de palavras ou expressões que costumam ocorrer nos cumentos aos quais um indexar humano atribuiria esse termo. Assim, a indexação se dá em duas fazes: em uma primeira etapa extraem-se palavras ou expressões texto por meio de técnicas estatísticas. Em uma segunda fase, partin desse conjunto de palavras/expressões, seleciona-se no vocabulário controla o termo cujo perfil possui certo nível de coincidente. Indexação por atribuição automática Os vocabulários controlas podem ser disponibilizas para os usuários de um sistema de informação, permitin que tenham acesso à terminologia empregada na indexação s cumentos. Isto possibilita compatibilizar a linguagem s usuários à linguagem utilizada na representação cumentos, resultan em uma recuperação mais eficiente. 19
Indexação por atribuição automática x y z Perfil Termo a, b, x T1 y, z T2 d, e, f T3 T1, T2 Críticas à Indexação Automática 20
Críticas à indexação automática Algumas técnicas comuns na recuperação de informação, como a utilização de listas de stopwords e a normalização das variações linguísticas s termos (stemming), podem dificultar o julgamento de relevância de um cumento ou descontextualizar um determina termo (Riloff, 1995). A presença termo morto em um cumento não garante que o cumento descreva um assassinato. Porém, a frase morto a tiros possui uma conotação de crime. A presença termo assassinato (singular) em um cumento é um indicar de que o cumento descreve um assassinato específico. Já a presença termo assassinatos (plural) pressupõe que o texto descreva diferentes assassinatos ou fale sobre assassinatos de uma forma geral. Preposições, formas verbais, afirmações positivas ou negativas, podem ser significantes para determinar o senti de uma frase. Referências 21
Referências ANDERSON, J.D.; PEREZ-CARBALLO, J. The nature of indexing: how humans and machines analyze messages and texts for retrieval - Part I: Research, and the nature of human indexing. Information Processing and Management, v.37, n.2, 2001. CROFT, W.B.; TURTLE, H.R.; LEWIS, D.D. The use of phrases and structured queries in information retrieval. Proceedings of the 14th annual international ACM SIGIR conference on research and development in information retrieval, 1991. p.32-45. LANCASTER, F.W. Indexação e Resumos: teoria e prática. 2ªed. Brasilia, DF: Briquet de Lemos, 2004. LEWIS, D.D. An evaluation of phrasal and clustered representation on a text categorization task. Proceedings of the 15th annual international ACM SIGIR conference on research and development in information retrieval, 1992. p.37-50. RILOFF, E. (1995) Little words can make a big difference for text classification. Proceedings of the 18 th annual international ACM SIGIR conference on research and development in information retrieval, p.130-136. ZIPF, G.K. Human Behavior and the Principle of Least Effort. Cambridge, MA: Addison-Wesley, 1949 22