Realizado por: Luis Miguel das Neves Leal. Orientadora: Engº. Fátima Rodrigues

Transcrição

1 Text Mining

2

3 Text Mining Realizado por: Luis Miguel das Neves Leal Orientadora: Engº. Fátima Rodrigues

4

5 Índice Índice de Figuras...III Índice de Tabelas... IV 1. Introdução Motivação Objectivo Estrutura Descoberta de Conhecimento Etapas do Processo de Descoberta de Conhecimento em Dados Análise de dados Text Mining Definição Importância Motivação Benefícios Dificuldades Descoberta de Conhecimento em Textos Metodologia Fases do Processo de Text Mining Usos Text Mining Vs Information Extraction Text Mining Vs Information Retrieval Técnicas e Estratégias Técnicas Recuperação Extracção Análise de Distribuição Diferença Resumos Clustering Identificação de Línguas Detecção de Duplicados Regras Associativas Classificação Estratégias Estratégia Direccionada Estratégia Não Orientada Modelos Pesquisa de Padrões Modelo Booleano Modelo Vectorial Modelo Probabilístico Modelo Fuzzy Modelo Clustering Modelo Contextual Indexação e Normalização Indexação Automática Identificação de Termos...47 I

6 8.3 Identificação de Termos Compostos Eliminação de stopwords Normalização Morfológica Cálculo de Relevância Selecção de Termos Filtragem Baseada no peso do Termo Selecção Baseada no peso do Termo Selecção por Latent Semantic Indexing Selecção por Análise de Linguagem Natural Ferramentas IBM Intelligent Miner For Text TextMining Suite TextAnalyst dtsearch SemioMap Eurekha Análise Comparativa Casos Práticos TextMining Suite Análise de Reclamações de Clientes Análise de Marketing Político Imagem Política Análise de Marketing Político Avaliação de Planos Instituição de Ensino TextAnalyst CaseBank Clontech dtsearch Sharp Electronics Corp. - SharpDesk emedicine.com SemioMap Industria Farmacêutica Jornalismo Eurekha Caso das Flores Conclusões Bibliografia II

7 Índice de Figuras Fig O processo de Descoberta de Conhecimento de Dados (Simplificado)...4 Fig O processo de Descoberta de Conhecimento de Dados...4 Fig. 3.1 Tradicional, Dados estruturados e organizados....7 Fig. 3.2 Textuais, Não possuem estrutura pré-definida...7 Fig. 3.3 Metodologia, Abordagem directa...10 Fig. 3.4 Metodologia, Abordagem tradicional Fig. 3.5 Processo Text Mining, fase Fig. 3.6 Processo Text Mining, fase Fig. 3.7 Processo Text Mining, fase 2 (exemplo)...12 Fig. 3.8 Processo Text Mining, fase Fig. 3.9 Processo Text Mining, fase 3 (exemplo)...13 Fig. 6.1 Fases do primeiro tipo de estratégia...23 Fig. 6.2 Fases do segundo tipo de estratégia...25 Fig Algumas pesquisas possíveis com o Modelo Booleano...29 Fig Arquivos invertidos no Modelo Vectorial Fig Documentos em espaço 3D Fig. 8.1 Processo de Indexação Automática...46 Fig Janela de visualização base (Estrutura de termos, Resultados e Documento base)...59 Fig Estrutura hierárquica de conceitos...60 Fig Rede Semântica de conceitos Fig Navegação através de hiperligações aos documentos originais...61 Fig Caixa de diálogo para actualização de índices Fig Caixa de dialogo para pesquisas Fig Visualização de resultados...66 Fig Visualização gráfica...67 Fig Níveis do mapa de conceitos Fig Arquitectura SemioMap Fig Distribuição de documentos por grupos Fig Análise Léxica: Lista de palavras mais frequentes...71 Fig Conjunto de palavras relevantes de um grupo...72 Fig Distribuição dos conceitos relevantes...85 Fig Distribuição de conceitos na Internet III

8 Índice de Tabelas Tab Possibilidade de ocorrência de termos Tab Principais operações e relações entre Conjuntos Fuzzy Tab Coeficientes de similaridade que consideram a ausência conjunta Tab Coeficientes de similaridade que não consideram a ausência conjunta Tab Coeficiente de associação contidos no intervalo [-1,1] Tab Coeficiente de associação contidos no intervalo [0,+8 [ Tab. 9.1 Análise comparativa de ferramentas Tab Conceitos mais relevantes Tab Regras de associação Tab Distribuição de conceitos por tipo de pacote Tab Conceitos mais citados por tipo de canal Tab Temas Semelhantes Tab Temas mais citados no plano de Serra Tab Temas mais citados no plano de Ciro Tab Motivos da escolha da instituição Tab Conceitos mais citados de acordo como o tipo de curso IV

9 1. Introdução 1.1 Motivação Durante os últimos anos tem se verificado um crescimento substancial da quantidade de documentos armazenados em formato electrónico. Considerando um documento não apenas texto escrito, podendo também conter imagens, diagramas, gráficos, vídeo, ou qualquer outro objecto que transmita informação, apesar de neste projecto apenas serem focados documentos textuais. Estes documentos, produzidos e armazenados em larga escala, são inviáveis de serem lidos ou analisados por especialistas através de métodos manuais tradicionais. Por outro lado, sabe-se que grandes quantidades de documentos equivalem a um maior potencial de informação. Devido a este facto torna-se necessário algum tipo de ferramenta que permita auxiliar os especialistas nessa tarefa, para que a análise dos documentos possa ser efectuada em tempo útil, e que essa análise retorne informação relevante. Podendo-se considerar informação relevante toda a informação que satisfaça uma necessidade de um utilizador, ou informação que o utilizador desconheça e que lhe possa ser útil. O Text Mining é uma área recente, que tem como objectivo a descoberta de informações em textos, utilizando um conjunto de técnicas e modelos, muitos deles já existentes. Sendo que as ferramentas desenvolvidas nesta área vêm solucionar grande parte dos problemas relacionados com a pesquisa, recuperação e análise de documentos textuais. 1.2 Objectivo Este projecto tem como objectivo fundamental estudar a área de Text Mining. No decorrer deste projecto será abordado o seguinte: A área de Text Mining, definido o seu âmbito, objectivos, importância, benefícios, dificuldades e aplicações. Comparação entre o Text Minig e as áreas relacionadas Information Extraction e Information Retrieval. Técnicas utilizadas para análise de texto, por ferramentas de Text Mining, e como poderão ser usadas ou interligadas. Alguns Modelos e Algoritmos usados. Algumas Ferramentas de Text Mining, incluindo casos práticos. 1.3 Estrutura O projecto esta organizado num conjunto de capítulos em que serão abordados os temas referidos anteriormente. 1

10 No capítulo 2 é apresentada a área de Descoberta de Conhecimento, como sendo a área que deu origem à área de Text Mining. No capítulo 3 é descrita a área de Text Mining, onde é apresentado uma definição, e a sua importância, motivação, benefícios, dificuldades, metodologia, fases e e usos. No capítulo 4 é efectuada uma distinção entre a área abordada e a área Information Extraction. No capítulo 5 é efectuada uma distinção entre a área abordada e a área Information Retrieval. No capítulo 6 são descritas as técnicas: Recuperação, Extracção, Análise de Distribuição, Diferença, Resumos, Clustering, Identificação de Línguas, Detecção de Duplicados, Regras Associativas e Classificação. São também analisadas algumas estratégias para o uso destas técnicas e interligação entre as mesmas. No capítulo 7 são abordados alguns Modelos usados para implementar algumas das técnicas descritas no capítulo 6. Os Modelos abordados são: Pesquisa de Padrões, Booleano, Vectorial, Probabilístico, Fuzzy, Clustering e Contextual. Sendo abordado no capitulo 8 os processos de indexação e normalização. No capítulo 9 são descritas algumas ferramentas de Text Mining existentes no mercado. Sendo que no capítulo 10 são exemplificados alguns casos práticos da utilização dessas ferramentas, entre outros. 2

11 2. Descoberta de Conhecimento A tomada de decisão e o planeamento estratégico de negócio necessitam de muita informação. Essa informação, muitas vezes, não está presente de forma clara no sistema de informações de uma organização, mas sim, de forma implícita. Esse tipo de informação implícita ou até mesmo escondida, não é obtidapelos métodos de recuperação tradicionais oferecidos pelos sistemas de informações. Para que esse tipo de informação possa ser encontrado torna-se necessário aplicar algum método ou ferramenta de Descoberta de Conhecimento (Knowledge Discovery). Os métodos de descoberta de conhecimento surgiram dentro da área de Inteligência Artificial (IA). Porém, esses métodos necessitam de uma grande quantidade de dados para que sua utilização seja útil. Logo, os métodos de descoberta de conhecimento passaram a ser aplicados sobre bases de dados, por possuírem uma elevada quantidade de dados. Com isso, esses métodos foram sendo usados na área de Sistemas de Informação, pois as bases de dados podem ser fontes valiosas de conhecimento. Assim surgiu a área de Descoberta de Conhecimento em Dados (Knowledge Discovery from Data KDD), que tem como objectivo descobrir relacionamentos e dados implícitos em registos de bases de dados, estudando e desenvolvendo um processo de extracção de conhecimento novo, útil e interessante, e apresenta-lo de alguma forma acessível para o utilizador. Esse tipo de análise resolve em parte o problema da sobrecarga de informações, já que oferece meios automatizados para analisar e processar a elevada quantidade de informações. A descoberta de conhecimento foi primeiramente utilizada em dados estruturados. Esse tipo de informação é muito importante para que as organizações consigam identificar novos dados e conhecimentos que estejam, de alguma forma, implícitos ou escondidos nos seus sistemas de informações e que não possam ser recuperados pelos meios tradicionais de recuperação. Apesar de serem importantes para as organizações, as informações internas e estruturadas não são as únicas necessárias, sendo grande parte das informações obtida em fontes externas. Essas fontes oferecem, na maioria dos casos, informações dispostas num formato sem estrutura ou semi-estruturado, ou seja, informações textuais. Esse tipo de informação textual não é tratado pelas ferramentas tradicionais de descoberta de conhecimento, pois possuem características que tornam a sua análise complexa. Para que as etapas do processo sejam aplicadas correctamente são necessárias técnicas e ferramentas computacionais desenvolvidas especificamente para tratar esse tipo de informação. Essas técnicas e ferramentas são encontradas dentro da área de recuperação de informações e da área de descoberta de conhecimento em textos (Knowledge Discovery from Text KDT). Porém, devido ao processo de descoberta de conhecimento em textos estar muito relacionado com o processo de descoberta de conhecimento em dados, usando muitas das suas técnicas e metodologias, além do facto de muitas organizações possuírem informações estruturadas e necessitarem também das ferramentas de descoberta de conhecimento em dados para parte do processo, serão inicialmente apresentadas as etapas básicas do processo de descoberta de conhecimento em dados. 3

12 2.1 Etapas do Processo de Descoberta de Conhecimento em Dados O processo de descoberta de conhecimento em dados é composto por uma série de etapas tendo como objectivo transformar os dados de baixo nível em conhecimento de alto nível. O processo de descoberta de conhecimento em dados não é linear e é orientado à aplicação. Sendo composto de uma série de actividades ou etapas que requerem a intervenção do utilizador. Basicamente, as etapas do processo de descoberta de conhecimento em dados são o pré-processamento, a análise de dados (data-mining) e o pós-processamento. A etapa de pós-processamento por sua vez é constituída pela selecção e ordenação dos resultados, elaboração de mapeamentos de representação do conhecimento e a criação de relatórios. Fig O processo de Descoberta de Conhecimento de Dados (Simplificado). O pré-processamento inclui tudo o que é feito antes da análise e inclui processos de análise, integração, transformações e limpeza dos dados existentes. Já o pósprocessamento estrutura o conhecimento obtido, para que possa ser apresentado ao utilizador de uma forma mais simples e compreensível. Fig O processo de Descoberta de Conhecimento de Dados. No final de cada etapa, essa etapa pode ser refeita, ou então retornar a outras etapas, pois as descobertas efectuadas até o momento podem conduzir a novas hipóteses que podem modificar todo o processo. Existem muitas ferramentas que trabalham em cada uma dessas etapas, geralmente de forma separada. 4

13 Descoberta de Conhecimento Isso requer muito trabalho por parte do utilizador a cada interacção, já que a necessidade de novas informações pode aparecer no final de cada processo ou interacção. 2.2 Análise de dados A análise de dados (Data-Mining) é a etapa mais importante do processo de descoberta de conhecimento. O objectivo dessa etapa constitui em descobrir pequenas informações úteis os chamados nuggets. Para que a análise de dados funcione, é extremamente importante que a organização ou pessoa encarregada de aplicar esse processo saiba exactamente o que deseja descobrir ou o que pode ser descoberto com os dados que possui. Os métodos de análise de dados costumam apresentar uma série de nuggets, e é muito importante que a organização saiba identificar quais podem ser realmente relevantes. Existem diferentes métodos que podem ser utilizados na análise. São eles: o processamento de dados, a predição, a regressão, a classificação, o clustering, a análise de associações e a visualização. Processamento de dados são aplicados com o objectivo de seleccionar, filtrar, agregar, exemplificar, limpar e transformar dados. Predição procuram determinar o valor de um atributo específico. Regressão analisam a dependência de valores de alguns atributos em relação a outros similares, gerando um modelo capaz de prever os valores de novos registos. Classificação determinam a que classe pertence determinado dado. Clustering dividem um conjunto, em vários grupos com características similares. Análise de Associações identificam relacionamentos entre atributos e itens, a fim de detectar se a presença de um padrão implica na presença de outro. Visualização tornam o conhecimento compreensível (gráficos e animações 2D e 3D); Esses métodos podem utilizar as mais diferentes abordagens. As abordagens mais comuns utilizam técnicas estatísticas, raciocínio baseado em casos, redes neurais, árvores de decisão, indução de regras, redes de bayes, algoritmos genéticos, conjuntos difusos ou conjuntos aproximados. Pode ser necessário aplicar os mesmos métodos repetidas vezes e com diferentes parâmetros até que obtenham a melhor performance ou os resultados esperados. Esses métodos podem inclusive ser aplicados em conjunto e em diversas ordens, dependendo do que o utilizador espera descobrir. Cada um desses métodos possui um objectivo diferente, que pode ser: Descobrir dependências entre dados, identificando atributos que possam influenciar outros. Descrever conceitos, a fim de identificar os atributos comuns nos membros de uma classe. Detectar desvios, para identificar os elementos ou objectos que se encontram fora das regras já definidas ou identificadas. Identificar grupos, para identificar itens com características similares. 5

14 Uma colocação importante é a de que o padrão encontrado numa base de dados pode ser válido somente para essa base de dados, não sendo possível transpor seu comportamento ou conhecimento para outro domínio. 6

15 3. Text Mining Neste capítulo será descrito, em pormenor, a tecnologia Text Mining, especificando de que trata o conceito, qual a sua importância, motivação e benefícios, bem como as dificuldades existentes na sua implementação, e que utilidades poderá ter. 3.1 Definição Esta tecnologia teve origem na descoberta de conhecimento, que é um processo que tem como objectivo a descoberta de relações válidas e úteis em dados, logo esta tecnologia terá igualmente como objectivo a descoberta de informação relevante, mas neste caso em dados não estruturados, ou seja, textos. Surgiu devido às técnicas tradicionais não poderem ser aplicadas para resolver a necessidade de obter informação de textos. Fig. 3.1 Tradicional, Dados estruturados e organizados. Fig. 3.2 Textuais, Não possuem estrutura pré-definida. Esta tecnologia tem então como objectivos principais a análise de textos, de forma a permitir a recuperação de informações, a extracção de dados, o resumo de documentos, associações e padrões, a descoberta de regras e a realização de análises quantitativas e qualitativas. Pode-se dizer então que o objectivo resumido da tecnologia seria a descoberta automática de informações implícitas em textos. 3.2 Importância Esta tecnologia torna-se muito importante em muitos casos, que se verificam diariamente em diversas organizações. Pois ajuda em numerosas funções, que efectuadas manualmente seriam muito demoradas e cansativas, sendo em alguns casos 7

16 quase impossível de efectuar, devido à elevada quantidade de dados não estruturados que nos dias de hoje as organizações lidam. Sendo assim esta tecnologia é bastante importante pois ajuda a: Descobrir informação específica, automatizando processos com uso de inteligência. Analisar qualitativamente e quantitativamente grandes volumes de textos, para que se possa conhecer e compreender melhor a informação textual disponível. Encontrar nova informação disponível nos textos, que poderá ser útil. 3.3 Motivação As principais motivações que levaram ao aparecimento desta tecnologia foram as seguintes: Sobrecarga de informação demasiada informação textual disponível às pessoas e organizações. Incapacidade de recolher informação útil e relevante, seja pela quantidade de informação disponível, seja pela incapacidade de análise dos respectivos textos, bem como a incapacidade de transformar as análises em informação útil e relevante. Problema de diferenças de vocabulário numa mesma língua a quantidade de sinónimos existentes para catalogar alguma coisa poderá ser enorme, por exemplo o nosso planeta, por algumas pessoas pode ser considerado como Planeta, por outras pode ser considerado como Terra e ainda por outras Globo. Problema de Homonímia uma palavra pode ter vários significados, por exemplo a palavra muda, num texto poderá significar uma pessoa muda, noutro uma mudança, entre outras. Exemplo: A actriz desta história é muda por isso a história muda muito em relação às outras. Estas diferenças de significado poderão ser bastante difíceis de resolver. A grande necessidade das pessoas e organizações obterem informações relevantes de uma forma rápida e sem complicações. 3.4 Benefícios Com o crescente avanço da utilização de computadores por parte das organizações e pessoas, a disponibilização de documentos armazenados em formato electrónico é cada vez maior, sendo que a maioria desses documentos se encontram em formato de texto (manuais, artigos, publicações, mails,...), principalmente nas organizações. Devido aos factos anteriormente referidos tornam-se evidentes os benefícios da utilização de ferramentas de Text Mining, tais como: Obtenção de informações sobre documentos disponíveis, que possivelmente poderiam ficar esquecidas, devido ao elevado número de documentos, ou à falta de meios humanos. Obtenção de informações de um grande número de documentos em tempo útil, o que não aconteceria se fosse efectuada manualmente. 8

17 Text Mining Permitir o uso de texto livre, de forma a registar pensamentos, ideias, sentimentos e opiniões de diversas pessoas. Extracção de informação útil de sugestões e reclamações, por parte de clientes, através de pesquisas, mails ou serviços de atendimento. Extracção de informação útil de defeitos, causas e soluções apontadas por funcionários. Possibilitar extrair informação necessária de manuais, normas, procedimentos, mails, listas de discussão, memorandos, etc. Possibilidade de obter conhecimento novo, ou seja, conhecimento não esperado. Possibilidade de se poder combinar o conhecimento obtido em documentos textuais com conhecimento obtido em dados estruturados. 3.5 Dificuldades As principais dificuldades que se encontram no desenvolvimento de uma ferramenta de Text Mining são: Conceitos abstractos são difíceis de representar. Conceitos são difíceis de visualizar. Múltiplas relações entre diversos contextos. Variedade de formas de representar o mesmo contexto. Elevada dimensionalidade, existindo milhões de características. Ambiguidade lexical e morfológica. Ambiguidade morfo-sintáctica. Altamente redundante. 3.6 Descoberta de Conhecimento em Textos A Descoberta de Conhecimento em Textos (Knowledge Discovery from Text KDT), também conhecida por Text Mining, é relativamente nova como área, porém muitas de suas técnicas e métodos já existem há algum tempo. Pode-se dizer que descoberta de conhecimento em textos é uma evolução natural da recuperação de informações, já que os Sistemas de Recuperação de Informações passaram a adoptar algumas técnicas de análise de informações, muitas das quais provenientes da área de descoberta de conhecimento em bases de dados. Assim, ao invés do utilizador ter que identificar que documentos retornados são realmente relevantes, o próprio sistema faria essa análise e retornaria as informações de forma condensada e resumida. Descoberta de conhecimento em textos pode ser entendida como a aplicação de técnicas de descoberta de conhecimento de dados sobre dados extraídos de textos. Entretanto, cabe salientar que descoberta de conhecimento em textos não inclui somente a aplicação das técnicas tradicionais de descoberta de conhecimento em dados, mas também qualquer técnica nova ou antiga que possa ser aplicada no sentido de encontrar conhecimento em qualquer tipo de texto. Com isso, muitos métodos foram adaptados ou criados para suportar esse tipo de informação semi-estruturada ou sem estrutura, que é o texto. A descoberta de conhecimento em textos vem solucionar grande parte dos problemas relacionados com a pesquisa, recuperação e análise de informações. A sobrecarga de informação, um dos maiores problemas enfrentados pelos utilizadores da 9

18 Internet, é um desses problemas. Sistemas de informação que ofereçam características de descoberta de informação podem beneficiar as organizações, auxiliando-as a obter e analisar os dados necessários à tomada de decisão e permitindo com que se posicionem melhor no mercado. 3.7 Metodologia Em seguida apresenta-se duas abordagens usadas na análise de textos. Antes porém convém definir abordagem como o modo usado na análise de textos, enquanto que as técnicas referem-se aos instrumentos usados na análise dos documentos Abordagem Directa: Nesta abordagem as informações são obtidas directamente de dados não estruturados. Fig. 3.3 Metodologia, Abordagem directa. Abordagem Tradicional: Nesta abordagem os de dados não estruturados são convertidos em dados estruturados, sendo posteriormente obtidas as informações através dos dados estruturados. Fig. 3.4 Metodologia, Abordagem tradicional. 3.8 Fases do Processo de Text Mining As fases que compõem a metodologia são descritas a seguir. Apesar de ter sido identificada como metodologia, nem todos os modelos de descoberta de conhecimento a seguem à risca. Em alguns casos, determinadas fases simplesmente não são realizadas. Em outros, fases adicionais são utilizadas. 10

19 Text Mining Basicamente, as fases mais importantes do processo de descoberta são as seguintes: Definição de objectivos. Selecção de um subconjunto de documentos. Pré-processamento ou limpeza dos dados. Redução dos dados de análise. Escolha da técnica, método ou tarefa de análise. Análise. Interpretação dos resultados. Consolidação do conhecimento descoberto. Fase 1 Filtrar documentos relevantes de um conjunto de documentos disponíveis. Fig. 3.5 Processo Text Mining, fase 1. Fase 2 Com base nos documentos seleccionados na Fase 1, efectuar uma correcção de erros ortográficos (1), eliminação de stopwords (2) (palavras com pouco significado geral, tais como artigos, preposições e advérbios) e eliminação de variações morfológicas (3). Fig. 3.6 Processo Text Mining, fase 2. Um exemplo desta fase poderá ser o seguinte, com base num excerto de um documento, o resultado desse excerto após a fase 2 será o seguinte: 11

20 Fig. 3.7 Processo Text Mining, fase 2 (exemplo). Fase 3 Seleccionar dados relevantes para a análise e aplicar técnicas e métodos apropriados, definindo nesta fase a abordagem (Tradicional ou Directa) a seguir. Na abordagem tradicional é efectuada uma identificação da relevância das palavras (1), seguida de extracção de informação relevante (T1), o que resulta num conjunto de dados estruturados (T2) que serão tratados por técnicas e métodos tradicionais (T3). Na abordagem directa é efectuada uma identificação da relevância das palavras (1), seguida de uma filtragem das palavras mais relevantes (D1), seguida de truncagem (D2), aplicando-se de seguida técnicas e métodos de Text Mining (D3). A aplicação das técnicas e métodos apropriados resulta em informação útil para o utilizador final. Fig. 3.8 Processo Text Mining, fase 3. 12

21 Text Mining Seguindo o exemplo apresentado anteriormente e aplicando a abordagem directa, o resultado da execução dos pontos (1), (D1) e (D2) desta fase seria: Fig. 3.9 Processo Text Mining, fase 3 (exemplo). 3.9 Usos As ferramentas de Text Mining têm sido usadas preferencialmente em organizações, que manipulam grande quantidade de informação. 13

22 As ferramentas Text Mining melhoram os negócios destas organizações através da análise de informação textual, sendo usadas principalmente para: Inteligência Competitiva, ou seja, identificar: Os participantes no negocio (clientes, fornecedores, concorrentes, aliados). As suas posições no mercado. Os seus produtos, serviços, técnicas e estratégias. Inteligência do Negócio, ou seja, identificar: As necessidades dos clientes. Os valores dos clientes. A qualidade dos produtos e serviços. Processos de melhoramento da venda dos produtos e da qualidade dos serviços. Gestão do Conhecimento, ou seja, analisar competências com o intuito de gerar conhecimento. Marketing de Precisão ou CRM (Customer Relationship Management), ou seja, analisar conhecimento de forma a oferecer produtos adequados às necessidades dos clientes. 14

23 4. Text Mining Vs Information Extraction Extracção de informações (Information Extraction) é uma área que visa extrair informação de dados não estruturados, transformando-a em informação estruturada. As técnicas de extracção de informações transformam dados, não estruturados em informações úteis, separando partes relevantes de textos e extraindo informação dessas partes. A sua principal importância é a diminuição do esforço dispendido, na obtenção de conhecimento. Tem como objectivo reconhecer e apresentar dados específicos existentes em textos, ignorando informações irrelevantes. Estas técnicas são por isso maioritariamente usadas em aplicações específicas. A informação extraída é convertida em informação mais especifica e orientada para que possa ser melhor analisada, formatando-a em padrões de saída (Dados estruturados ou Linguagem natural). Para o reconhecimento de informações através de análise léxico-sintáctica poderão ser usadas Gramáticas Regulares, parsers e autómatos finitos. Podendo no entanto ser usadas técnicas mais complexas como analise semântica. Como a extracção de informações baseia-se na pesquisa de informações em documentos, geralmente especifica de uma determinada área, a maioria dos sistemas são construídos especificamente para essa determinada área, por necessitarem de muito trabalho por parte de especialistas da mesma. As aplicações baseadas em Text Mining cobrem normalmente dois aspectos que são: a descoberta de conhecimento e a extracção de informação (Information Extraction). 15

24 16

25 5. Text Mining Vs Information Retrieval Recuperação de informações (Information Retrieval) é uma área que efectua indexação e pesquisa de documentos ou parte deles, com base em textos ou palavras e através de padrões pré-definidos. As ferramentas de recuperação de informações trabalham geralmente com técnicas de indexação, que permitem aceder rapidamente a documentos numa base de dados de textos. Existem três tipos de indexação: Indexação tradicional, Os tópicos de pesquisa são indicados por quem efectuar a pesquisa. Indexação full-text, Os tópicos de pesquisa são constituídos por todos os termos que compõe um determinado documento. Indexação por tags, Os tópicos da pesquisa são constituídos por partes de textos escolhidos automaticamente, sendo somente escolhidas as partes mais importantes ou específicas. Um dos grandes problemas destas técnicas, é que em muitas pesquisas são apresentados documentos irrelevantes enquanto que documentos relevantes não são apresentados. Isto deve-se ao facto de estas técnicas se basearem na existência ou não dos tópicos de pesquisa, podendo existir documentos relevantes que não contenham os tópicos especificados, e documentos que contenham os tópicos especificados mas não tratem o assunto. Devido aos factos referidos, torna-se necessário analisar os documentos resultantes, para obter a informação desejada e dado a sobrecarga de documentos normalmente obtida, esta análise poderá tornar-se bastante complicada. Estas técnicas são normalmente usadas em: Motores de procura baseados em palavras. Motores de procura baseados em Queries, usando linguagens do tipo SQL orientadas para a Web. Motores de procura multimédia. 17

26 18

27 6. Técnicas e Estratégias Neste capítulo serão abordadas técnicas usadas em Text Mining, e estratégias de utilização das mesmas. 6.1 Técnicas As principais técnicas usadas e que serão abordadas são as seguintes: Recuperação. Extracção. Análise de Distribuição. Diferença. Resumos. Clustering. Identificação de Línguas. Detecção de Duplicados. Regras Associativas. Classificação Recuperação Esta técnica tem como objectivo encontrar informações específicas, mas de uma forma mais independente do que as ferramentas de recuperação de informações. Tornase mais independente devido ao facto de esta técnica ser usada para casos em que os utilizadores querem aprender alguma coisa sobre o tema, enquanto que na recuperação de informações o objectivo é encontrar informações específicas ou respostas a questões. Sendo então o principal objectivo desta técnica, encontrar documentos sobre um determinado assunto, bem como documentos similares. Para este tipo de procura, o utilizador pode utilizar regras gerais, ou então definir as suas próprias regras. Por exemplo, para pesquisar o tema de um texto, podem ser procuradas frases onde apareça o tema ou seus sinónimos, ou então procurar frases em que apareçam outros termos que possam induzir o tema ( definiu-se, apresenta-se, será discutido, etc) Extracção Esta técnica tem como objectivo extrair informações específicas, através da pesquisa de atributos, de forma a obter os seus valores. Sendo que os atributos e respectivos valores poderão não estar implícitos nos documentos. É normalmente utilizada como um processo anterior à etapa de análise, sendo considerada uma etapa de pré-processamento. As informações obtidas são transformadas num formato estruturado, sendo posteriormente utilizadas para outros fins. 19

28 6.1.3 Análise de Distribuição Esta técnica tem como objectivo verificar a frequência de ocorrência de determinados termos num conjunto de documentos, ou parte deles. Os resultados obtidos são representados por uma lista de termos e suas respectivas frequências, permitindo analisar que temas aparecem mais. Existe a possibilidade de efectuar comparações entre listas de resultados diferentes, podendo assim ser encontrados temas comuns e diferenças ou similaridades entre frequências dos termos Diferença Esta técnica tem como objectivo encontrar temas exclusivos num conjunto de documentos. Portanto pode-se considerar como uma técnica inversa à técnica de Análise de Distribuição, ou seja usa os mesmos princípios, mas em vez de procurar temas comuns nos documentos, são procurados os temas que aparecem menos nesse conjunto de documentos Resumos Esta técnica tem com objectivo efectuar uma abstracção das partes mais importantes dos documentos, ou seja efectuar resumos das partes mais significativas de determinados documentos. Podendo dar uma visão geral do conjunto de documentos ou ainda salientar as partes mais importantes e interessantes. Desta forma o utilizador pode identificar rapidamente o assunto abordado por um documento ou conjunto de documentos sem ter de os ler. Algumas ferramentas efectuam geração automática de resumos, podendo o utilizador definir o tamanho e que partes serão usadas. A análise do documento é feita sobre a sua organização (secções, parágrafos, títulos, etc), sobre as suas frases (análise morfológica e sintáctica com utilização de dicionários), sobre as suas estruturas (ligações lógicas e expressões usuais) e com obtenção de funções semânticas por tags, definindo tags específicos para cada função. Outras ferramentas permitem analisar diversos documentos relativos a um determinado tema e gerar um resumo em linguagem natural. As informações são obtidas de determinadas partes do documento, e convertidas numa estrutura designada de slots. Slots são uma representação das informações obtidas, sendo cada slot constituída por um atributo e seu respectivo valor. O resultado final é obtido através da colocação das informações contidas nos slots, em formatos predefinidos. Assim se obtêm frases soltas e para evitar uma simples junção de frases, são usadas ligações lógicas e expressões usuais, de forma a unir as frases e obter um resumo mais complexo. A utilização de slots permite também efectuar análises de similaridade e diferença entre as informações obtidas, sendo para o efeito aplicados operadores semânticos às informações de diversos documentos. Estes operadores definem que informações serão incluídas no resultado final. 20

29 Técnicas e Estratégias Clustering Esta técnica tem como objectivo agrupar automaticamente um conjunto de documentos, em diversos grupos organizados por similaridade. Esta separação é efectuada por classes que serão identificadas durante a separação, não existindo classes predefinidas. Normalmente existe uma associação com alguma técnica que permita descrição de conceitos, de forma a identificar os atributos das classes identificadas. É útil na descoberta de conhecimento, devido ao facto de facilitar a identificação de similaridades nas classes, e bastante importante para a detecção de classes relevantes e classes que possam trazer conhecimento novo e útil. Essa técnica é geralmente utilizada antes de um processo de classificação, facilitando a definição de classes, pois o especialista pode analisar os relacionamentos entre os elementos de um conjunto de documentos e identificar a melhor distribuição de classes para os objectos em questão. Isso significa que não há a necessidade de se ter conhecimento prévio sobre os assuntos dos documentos ou do contexto dos documentos. Os assuntos e as classes dos documentos são descobertos automaticamente pelo processo de agrupamento. O clustering pode gerar topologias de grupos isolados ou hierárquicos. No primeiro caso, um algoritmo de partição é aplicado ao conjunto de documentos e estes são colocados em grupos distintos, geralmente não havendo espécie alguma de relacionamento entre os grupos identificados. Já no segundo, pode haver algum relacionamento ou ligação entre os grupos. Nesse caso, o processo de identificação de grupos é aplicado recursivamente, acabando por gerar uma espécie de árvore onde as folhas representam os grupos mais específicos e os nodos intermediários representam grupos mais abrangentes. Cada uma destas topologias possui suas vantagens e desvantagens. No primeiro caso, não há estruturas que indiquem o relacionamento entre os grupos, impossibilitando o utilizador de identificar os assuntos mais específicos e os mais abrangentes. Esse problema é solucionado pelo segundo caso, que oferece estruturas de navegação hierárquica entre os grupos, facilitando a localização de informações. Essa vantagem exige um tempo de processamento maior, já que o algoritmo de clustering deve passar a analisar os grupos identificados várias vezes, tornando-se uma desvantagem. Outra desvantagem do método hierárquico diz respeito à manutenção dos grupos, que é mais complexa. Os grupos identificados também podem ser utilizados em alguns processos de identificação de características relevantes, identificação de padrões, e identificar tendências em grupos ao longo do tempo. A separação efectuada por este processo ajuda muito à compreensão dos seres humanos, permitindo um uso posterior melhor dos documentos e da informação neles contida Identificação de Línguas Esta técnica tem como objectivo a identificação do tipo de linguagem de um documento, ou seja identificar em que língua está escrito um determinado documento. É muito útil para a maior parte das técnicas, que tratem de um conjunto de documentos, pois poderá ser necessário efectuar comparações entre termos de documentos diferentes, o que implica, que para que a comparação possa ter sucesso é necessário que os documentos estejam escritos numa mesma língua. 21

30 6.1.8 Detecção de Duplicados Esta técnica tem como objectivo identificar documentos duplicados, ou seja pesquisar arquivos de documentos em busca de documentos duplicados. Permitindo assim remover documentos desnecessários, diminuído o número de documentos que terão de ser pesquisados ou analisados Regras Associativas Esta técnica tem como objectivo identificar relações e associações entre termos, funcionando como uma probabilidade condicional, ou seja tem como objectivo através da presença de um termo, identificar a presença de outros termos, isto torna-se possível através de uma identificação das dependências entre termos. Os documentos são processados de forma a obter uma tabela com as suas palavras mais significativas, efectuando depois uma procura de associações para as palavras. Os resultados são expressos na forma de regras do tipo X > Y, em que X pode ser vários termos enquanto que Y é apenas um, ou seja esta regra indica que se X está presente num documento então Y também está presente, com um determinado grau de certeza. Este grau de certeza é determinado por valores de confiança e suporte. Os valores de confiança podem ser determinados pela proporção de documentos que possuem X e Y em relação aos documentos que apenas possuem X. Os valores de suporte podem ser determinados pela quantidade de documentos que possuem X e Y Classificação Esta técnica tem como objectivo determinar a que classe ou categoria pertence determinado documento, através das características e atributos do documento e com base em classes predefinidas. Podendo no entanto ser acrescentadas novas classes, no caso de as características não satisfazerem as características das classes existentes, ou no caso de as características serem contraditórias, ou seja, satisfazerem mais do que uma classe, podendo também neste caso o documento ser considerado como pertencente às diversas classes. Tem também diversos propósitos, podendo auxiliar no processo de indexação, identificando os tópicos nos quais os documentos devem ser indexados, ou para efectuar uma pré-filtragem das informações. Alguns erros de classificação podem ocorrer em casos em que o conteúdo dos documentos não tenha sido bem analisado, ou então tenha sido apenas considerado o título, e em casos em que as características das classes tenham sido mal definidas. 6.2 Estratégias Em relação às estratégias para obter conhecimento podem ser consideradas dois tipos de estratégias, que podem ser usadas nos seguintes casos: 22

31 Técnicas e Estratégias Estratégia Direccionada O utilizador sabe qual é o seu objectivo ou necessidade e sabe o que precisa, ou seja, o utilizador é capaz de formular hipóteses iniciais. Neste caso a informação é obtida para satisfazer um problema específico do utilizador, sendo que o utilizador sabe o que necessita e é capaz de identificar a solução desejada quando a encontrar. Esta estratégia baseia-se nos seguintes passos: Fig. 6.1 Fases do primeiro tipo de estratégia. As necessidades neste caso podem ser consideradas necessidades estáticas e específicas, dado que o utilizador apenas quer encontrar aquilo que necessita. O processo de pesquisa inicia-se com a formulação de hipóteses iniciais por parte do utilizador, sendo que é necessário algum pré-processamento. Após terem sido formuladas as hipóteses é necessário entender o objectivo do utilizador, para que se possa limitar a procura para testar as hipóteses e filtrar os resultados. Depois de terem sido obtidos os resultados referentes às hipóteses iniciais, são analisados esses respectivos resultados em que o utilizador verifica se os resultados são satisfatórios, se não os considerar satisfatórios terá que formular novas hipóteses ou modificar as hipóteses anteriores e recomeçar o processo. 23

32 6.2.2 Estratégia Não Orientada O utilizador não tem um objectivo específico, sendo o propósito desta descoberta de conhecimento, explorar informação, para descobrir potenciais problemas ou oportunidades. As necessidades neste caso podem ser consideradas necessidades dinâmicas e abrangentes, dado que o utilizador não sabe exactamente o que procura, ou seja o objectivo da procura não se encontra bem definido, sendo que devido a este facto as necessidades podem variar durante o processo. Neste processo não existem hipóteses iniciais, ou então essas hipóteses são muito vagas, sendo que utilizador terá que durante o processo ir descobrindo possíveis hipóteses e refinando-as até descobrir algo que lhe interesse. Uma das particularidades deste processo é que geralmente o utilizador começa por procurar conhecimento mais geral, passa por uma procura mais relevante em grupos e termina procurando informações mais focadas e específicas. Esta estratégia baseia-se nos seguintes passos: O primeiro passo é seleccionar um conjunto de documentos que servirão de entrada para o processo, ou seja uma conjunto de documentos a ser analisado por técnicas automáticas. Neste primeiro passo as técnicas mais indicadas são: Recuperação, permitindo seleccionar documentos por palavras-chave, ou seja por seleccionar textos de um determinado assunto ou tema. Classificação, permitindo seleccionar documentos por assunto ou tema. Podendo também ser seleccionados manualmente pelo utilizador. O segundo passo é efectuar uma análise do conjunto dos documentos seleccionados ou parte desse conjunto, sendo a escolha efectuada pelo utilizador. No caso da análise a parte do conjunto, as técnicas que poderão ser aplicadas para separar o conjunto são: Clustering, permitindo agrupar diversos grupos por similaridade. Recuperação ou Classificação, permitindo seleccionar partes de interesse, sendo que estas técnicas necessitam de intervenção do utilizador. O terceiro passo é efectuar uma análise dos grupos de documentos ou partes deles, neste passo pode-se começar aplicando a técnica Análise de Distribuição, que permite obter uma lista com os termos comuns a todos os documentos ou apenas a alguns. A técnica da Diferença pode ser aplicada depois para obter novas hipóteses. Por fim poderá ser aplicada ainda a técnica de Associação de forma a descobrir algo interessante. O quarto passo é para efectuar comparações de sub-colecções entre si ou com o conjunto completo, ou seja permite usar os resultados obtidos no passo anterior aplicados a cada grupo para efectuar comparações entre si ou com os resultados obtidos com o conjunto completo. O quinto passo é para efectuar uma validação das hipóteses obtidas, a técnica de Resumos geralmente é bastante útil pois possibilita ao utilizador uma leitura das frases mais significativas de forma a interpretar os resultados. Depois de efectuados estes passos, o utilizador decide se os resultados obtidos são interessantes e se ficou satisfeito, senão poderá repetir todo o processo ou parte dele. 24

33 Técnicas e Estratégias Fig. 6.2 Fases do segundo tipo de estratégia. Analisando as duas estratégias, pode-se notar que apesar de mais automatizada o segundo caso também necessita de intervenção por parte de utilizador. Sendo então estas técnicas usadas não para automatizar todo o processo de descoberta de conhecimento, mas sim para ajudar o utilizador na descoberta de informação, minimizando o trabalho dispendido pelo mesmo, não deixando de parte o conhecimento humano que é necessário e útil. 25

34 26

35 7. Modelos Neste capítulo serão descritos, alguns modelos usados durante o processo de Text Mining. Os modelos que serão descritos são: Pesquisa de Padrões. Booleano. Vectorial. Probabilístico. Lógica Fuzzy. Clustering. Contextual. 7.1 Pesquisa de Padrões O modelo de Pesquisa de Padrões (Pattern Search) utiliza métodos de pesquisa de strings para localizar documentos relevantes. Na verdade, quando este modelo é utilizado, não se tem a ideia da localização de documentos relevantes, mas sim, da localização da string, em si, no documento. O aumento no volume de informação armazenada faz com que cresça também a probabilidade de erros no conteúdo dos textos, seja por digitação incorrecta, falhas de transmissão, ou ainda erros no reconhecimento óptico de caracteres. Assim, torna-se interessante a possibilidade de se realizarem pesquisas permitindo erros, que também pode ser utilizada nos casos em que não se conhece exactamente a grafia do termo a ser procurado. O resultado da pesquisa é a localização de todas as ocorrências do padrão de consulta num documento ou conjunto de documentos, sendo que esse padrão é geralmente uma palavra ou expressão regular descrevendo os caracteres que devem ser encontrados. Os algoritmos para pesquisa exacta ou aproximada, em textos podem ser classificados segundo vários critérios. Um dos critérios é a utilização ou não de estruturas de indexação para se acelerar a pesquisa. Os algoritmos que realizam a procura no texto como um todo, efectuando uma pesquisa sequencial ou linear, são chamados algoritmos sequenciais de pesquisa ou algoritmos on-line, por não realizarem nenhum pré-processamento do texto, apenas do padrão. Estes algoritmos têm um desempenho bastante bom em pequenas quantidades de textos. Para a realização de pesquisas em textos na ordem dos gigabytes, torna-se necessária a utilização de estruturas indexação. Os algoritmos correspondentes são classificados como algoritmos off-line, pois realizam um pré-processamento sobre o texto. O tempo de processamento necessário para a criação do índice é compensado nas pesquisas que se tornam mais rápidas. 7.2 Modelo Booleano O Modelo Booleano é um dos modelos clássicos, usando os conceitos de Teoria dos Conjuntos e de Álgebra Booleana, considerando uma consulta como uma expressão 27

36 booleana convencional, ligando os termos através de conexões lógicas AND, OR e NOT. No Modelo Booleano um documento ou é considerado relevante ou não relevante a uma consulta, não existe resultado parcial e não há informação que permita a ordenação dos resultados da consulta. Este modelo é muito mais utilizado para recuperação de dados do que para recuperação de informação. É bom para quem entende bem de álgebra booleana, mas muitos dos utilizadores não a entendem. Exemplo: Numa consulta com 3 termos t1, t2 e t3, as possibilidades de ocorrência destes termos em documentos, pertence a uma das seguintes opções: Ocorrência (S/N) T1 T2 T3 S S S N S S S N S S S N N N S S N N N S N N N N Tab Possibilidade de ocorrência de termos. Os conjuntos anteriores descrevem todas as possibilidades para o conjunto resposta da consulta. Com 4 termos as possibilidades de ocorrências aumentariam, e assim por diante, ou seja, o número de possibilidades de ocorrências cresce exponencialmente: 2 n, onde n é o número de termos da consulta. As consultas são construídas como uma combinação de possibilidades de ocorrências. Geralmente, para n termos, temos k=2 n possibilidades de ocorrências e 2 k consultas possíveis. Por exemplo, para 4 termos são 2 4 = 16 possibilidades de ocorrências e 2 16 = consultas possíveis. O Modelo Booleano é bastante eficiente em pesquisas simples, mas, tem algumas limitações: Fórmulas booleanas podem ser de difícil entendimento para utilizadores inexperientes, pois apresentam a necessidade de fazer a concatenações entre diversas expressões booleanas (AND, OR, NOT). Nas consultas em grandes bases de informação, quando um utilizador procura um termo genérico pode ser retornado uma grande quantidade de informação, que não pode ser filtrada. No outro oposto, quando o termo procurado é muito restrito, pode ocorrer que não sejam retornados documentos. Uma solução proposta é criar um ranking dos documentos retornados, ordenados pelo número de termos que satisfazem a consulta. Quando são procurados diversos termos diferentes na mesma consulta, não é possível definir um grau de importância para cada termo. Seria necessário uma 28

37 Modelos maneira onde, baseado numa consulta, o utilizador pudesse definir o grau de importância para cada termo da consulta. Exemplo: Considerando 3 conjuntos de documentos ( A, B, C ), e sabendo que os documentos do conjunto X contêm referencias ao termo X, algumas pesquisas que se podem fazer com este modelo são: Fig Algumas pesquisas possíveis com o Modelo Booleano. 7.3 Modelo Vectorial No Modelo Vectorial cada documento é representado como um vector de termos em que cada termo possui um valor associado que indica o grau de importância nesse documento, ou seja, cada documento possui um vector associado que é constituído por pares de elementos na forma {(palavra_1, peso_1), (palavra_2, peso_2),..., (palavra_n, peso_n)}. Estes documentos podem ser organizados, por exemplo, num arquivo invertido: Fig Arquivos invertidos no Modelo Vectorial. 29

38 Os arquivos invertidos são formados por listas invertidas. Se a consulta procura documentos onde aparecem as palavras [1-n], o primeiro passo é fazer a intersecção entre as listas. Observações: Documentos são representados como vectores no espaço de termos. Termos são ocorrências únicas nos documentos. Documentos são representados pela presença/ausência de um termo. Todos os termos combinados podem definir cada documento. As consultas são representadas da mesma forma. Aos termos das consultas e documentos são acrescentados pesos. Os pesos especificam o tamanho e a direcção da sua especificação como vector. A distância entre vectores pode medir a sua relação com uma consulta. O peso de um termo num documento pode ser calculado de diversas formas. Os pesos são usados para verificar a similaridade entre cada documento e uma consulta efectuada pelo utilizador. Estes métodos de cálculo de peso geralmente baseiam-se no número de ocorrências do termo no documento (frequência). Uma das formas de se calcular o peso, tenta balancear características em comum nos documentos e características para fazer a distinção entre os documentos. Calculo do TF (Term Frequency) O TF mede a proporção da quantidade de uma determinada palavra em relação à palavra de maior quantidade num documento. Sendo Q X a quantidade de ocorrências de uma palavra X, e Q Max a quantidade de ocorrências da palavra que aparece mais no documento. O valor TF é calculado por: TF = Q X Q MAX Calculo do IDF (Inverse Document Frequency) O IDF mede a proporção da palavra em relação ao aparecimento desta palavra no total dos documentos do conjunto. Sendo N a quantidade total de documentos do conjunto, e N i a quantidade de documentos em que aparece a palavra. O valor IDF é calculado por: IDF = log N N i Calculo de TFIDF (Term Frequency x Inverse Document Frequency) Neste modelo, tanto os vectores de pesquisa, como o dos documentos têm os seus pesos calculados pela fórmula do TFIDF. Com isso, existe uma informação mais 30

39 Modelos apurada a respeito das palavras de cada documento, isto porque o método procura olhar para o conjunto de todos os documentos para determinar as coordenadas do vector. O valor TFIDF é calculado por: TFIDF = TF IDF Cada elemento do vector de termos é considerado uma coordenada dimensional. Assim, os documentos podem ser colocados em um espaço euclidiano de n dimensões (onde n é o número de termos) e a posição do documento em cada dimensão é dada pelo seu peso. Fig Documentos em espaço 3D. As distâncias entre um documento e outro indicam o seu grau de similaridade, ou seja, documentos que possuem os mesmos termos acabam sendo colocados numa mesma região do espaço e, em teoria, tratam de assuntos similares. A consulta do utilizador também é representada por um vector. Desta forma, os vectores dos documentos podem ser comparados com o vector da consulta e o grau de similaridade entre cada um deles pode ser identificado. Os documentos mais similares à consulta, ou seja, os vectores mais próximos no espaço, são considerados relevantes para o utilizador e retornados como resposta para a consulta. Uma das formas de calcular a proximidade entre os vectores é testar o ângulo entre estes vectores. No modelo original, é utilizada uma função baptizada de cosine vector similarity que calcula o produto dos vectores de documentos. Sendo Q o vector dos termos da consulta, D o vector de termos do documento, W qk os pesos dos termos da consulta e W dk os pesos dos termos do documento. O grau da similaridade é calculado por: 31

40 Similaridade( Q, D ) = n Σ 1 n 2 Σ ( W qk ) 1 W qk W dk n Σ 1 2 ( W dk ) Depois dos graus de similaridade terem sido calculados, é possível montar uma lista ordenada de todos os documentos e seus respectivos graus de relevância à consulta, da maior para a menor relevância. No caso de o grau de similaridade ser 1, isto significa que os vectores referentes à consulta e ao documento são iguais, no caso de ser 0, significa que não partilham termos. Vantagens Atribuir pesos aos termos melhora o desempenho. É uma estratégia de encontro parcial, em função da similaridade, que é melhor que a exactidão do modelo booleano. Os documentos são ordenados de acordo com o seu grau de similaridade com a consulta. Desvantagens Ausência de ortogonalidade entre os termos, isto poderia encontrar relações entre termos que aparentemente não têm nada em comum. É um modelo generalizado. Um documento relevante pode não conter termos da consulta. 7.4 Modelo Probabilístico O Modelo Probabilístico possui esta denominação justamente por trabalhar com conceitos provenientes da área da probabilidade e estatística. Neste modelo os termos indexados dos documentos e das consultas não possuem pesos pré-definidos. A ordenação dos documentos é calculada pesando dinamicamente os termos da consulta relativamente aos documentos. É baseado no princípio da ordenação probabilística (Probability Ranking Principle). Neste modelo, pretende-se verificar a probabilidade de um documento D ser ou não relevante para uma consulta Qa. Tal informação pode ser obtida assumindo-se que a distribuição de termos no conjunto seja capaz de informar a relevância provável, para um documento qualquer do conjunto. Princípio da Ordenação Probabilística: +Ra o documento é relevante para a consulta Qa. Ra o documento não é relevante para a consulta Qa. D documento. 32

41 Modelos P ( +Ra / D ) - probabilidade de um documento D ser relevante para a consulta Qa. P ( Ra / D ) - probabilidade de um documento D não ser relevante para a consulta Qa. Assumindo que a relevância de um documento é independente da relevância de todos os outros, um documento D é relevante para uma consulta Qa quando: P ( +Ra / D ) > P ( Ra / D ) Assim, dada uma consulta Qa, o modelo probabilístico atribui a cada documento D um peso W D / Qa, como medida de similaridade, sendo calculada pela seguinte fórmula: W D Qa P +Ra D = P Ra D Essa fórmula calcula a probabilidade de observação aleatória de D que pode ser tanto relevante quanto irrelevante. A teoria de Bayes auxilia a identificar para cada termo da consulta o grau de relevância e de irrelevância do documento, seleccionando o mais adequado para o somatório final, já que o grau final de probabilidade de relevância é dado pelo somatório dos graus de relevância de cada termo. Sendo P ( D / +Ra ) a probabilidade de, dando um documento relevante para Qa, este seja D, P ( D / -Ra ) a probabilidade de, dando um documento irrelevante para Qa, este seja D, P ( +Ra ) a probabilidade de um documento ser relevante e P ( -Ra ) a probabilidade de um documento ser irrelevante. Assim aplicando a teoria de Bayes: W D Qa P = P D +Ra D Ra P ( +Ra ) P ( Ra ) Para calcular P ( D / +Ra ) e P ( D / Ra ), como os termos indexados nos documentos são apenas presentes ou não presentes, o documento pode ser representado pelo vector: D = { x 1, x 2,..., x n }, x k e{0,1}. Ou seja, o peso para o termo indexado x 1 pertence ao conjunto {0,1}. 33

42 Sendo P ( x k / +Ra ) a probabilidade de um documento D ser relevante para a consulta Qa, se o evento descrito em x k ocorrer, ou seja se o termo k esta presente ou ausente do documento. Assim o valor de P ( D / +Ra ) é calculado por: P D +Ra n = Π 1 P x k +Ra Sendo r ak = P ( x k (= 1) / +Ra ) a probabilidade de um documento D ser relevante para a consulta Qa, estando o termo k presente no documento. Assim o valor de P ( D / +Ra ) é calculado por: P D +Ra n = Π 1 xk 1 xk r ak ( 1 r ak ) Seguindo os mesmos passos, pode-se obter a formula para o calculo de P ( D / - Ra ), mas sendo s ak = P ( x k (= 1) / -Ra ) a probabilidade de um documento D não ser relevante para a consulta Qa, estando o termo k presente no documento. Assim o valor de P ( D / -Ra ) é calculado por: P D Ra n = Π 1 xk 1 xk s ak ( 1 s ak ) Substituindo as duas últimas fórmulas na primeira e acrescentando logaritmos, podemos recalcular os pesos da seguinte forma: W D Qa n = Σ 1 x k W ak C Sendo: x k { 0, 1} W ak = log r ak C = log P ( +Ra ) + P ( Ra ) log 1 s ak + 1 r ak s ak n Σ 1 log 1 r ak 1 s ak Desta forma percebe-se que para avaliar um documento é preciso simplesmente avaliar os pesos para os termos da consulta (W ak ), que também estão presentes nos 34

43 Modelos documentos (x k =1). A constante C que é a mesma para qualquer documento, vai variar de consulta para consulta, mas pode ser interpretada como o valor de corte para a função de recuperação, podendo ser ignorada. Por esta razão, a equação final pode ser escrita simplesmente na forma: Sim ( D, Qa ) = W D Qa n = Σ 1 x k W ak W D/Qa é a medida de similaridade entre a consulta Qa e o documento D. Note-se que W ak é o peso para o termo k da consulta, enquanto x k é o peso para o termo k no documento. Uma vez que o valor de x k é binário (x k e{0, 1}), pode-se dizer que o modelo probabilístico não atribui pesos aos termos nos documentos, ou seja, o modelo ordena os documentos apenas pela medida dos pesos dos termos da consulta (W ak ). Vantagens Por usar o Princípio da Ordenação Probabilística, o modelo comporta-se optimamente, devido aos documentos serem ordenados de forma decrescente por probabilidade de serem relevantes. Algumas evidencias retiradas de experiências, parecem indicar que este modelo tem um desempenho melhor que o do modelo vectorial. Desvantagens Assume a independência entre os termos. Não há como calcular r ak ao iniciar a execução do sistema, uma vez que os documentos ainda não são conhecidos. O modelo não faz uso da frequência dos termos no documento. 7.5 Modelo Fuzzy A força do Modelo Fuzzy deriva da possibilidade de inferir conclusões e gerar respostas baseadas em informações vagas, ambíguas e qualitativamente incompletas e imprecisas. Neste aspecto, os sistemas de base Fuzzy têm a possibilidade de raciocinar de forma semelhante à dos humanos. O seu comportamento é representado de maneira muito simples e natural, levando à construção de sistemas compreensíveis e de fácil manutenção. É baseado na teoria dos Conjuntos Fuzzy. Esta é uma generalização da teoria dos Conjuntos Tradicionais para resolver os paradoxos gerados à partir da classificação verdadeiro ou falso da Lógica Clássica. Tradicionalmente, uma proposição lógica tem dois extremos: ou completamente verdadeiro ou completamente falso. Enquanto, a Lógica Fuzzy, trata valores que variam em grau de verdade de 0 a 1, o que leva a ser 35

44 parcialmente verdadeira ou parcialmente falsa, permitindo tratar expressões do tipo mais ou menos, muito, pouco ou talvez. Com a incorporação do conceito de grau de verdade, a teoria dos Conjuntos Fuzzy entende a teoria dos Conjuntos Tradicionais. Os grupos são classificados qualitativamente e os elementos destes grupos são caracterizados variando o grau de pertinência, ou seja, o valor que indica o grau em que um elemento pertence a um conjunto. Por exemplo, um homem de 1,80 metro e um homem de 1,75 metro são membros do conjunto alto, embora o homem de 1,80 metro tenha um grau de pertinência maior neste conjunto. Um Conjunto Fuzzy é definido num universo base X, e caracterizado por uma função de pertinência: A:X [ 0, 1 ] onde A(x) representa o grau com que x pertence a A, expressando o grau de enquadramento de x na categoria representada por A. Uma função de pertinência particular pode ser visualizada da seguinte forma, sendo as variáveis a, b e c parâmetros da função. µ ( x ) = x b c c 0 a a se x [ a b ] x b se x [ b c ] Como a teoria dos Conjuntos Fuzzy é uma extensão da teoria dos Conjuntos Tradicionais. Também, as principais operações e relações entre Conjuntos Fuzzy são definidas como extensão das operações e relações tradicionais, como pode ser visto na tabela seguinte, onde A e B são conjuntos Fuzzy sobre um conjunto base X e A(x) e B(x) representam os graus de pertinência de x nos conjuntos A e B respectivamente. Complemento Diferença A( x ) = 1 A( x ) ( A B ) sea( x ) B( x ) para pelo menos um elemento de x e X Igualdade Inclusão ( A = B ) sea( x ) = B( x ) para todo x e X ( A B ) sea( x ) B( x ) para todo x e X 36

45 Modelos Intersecção União A B = A( x ) B( x ) = min [ A( x ), B( x )] A B = A( x ) B( x ) = max[ A( x ), B( x )] Tab Principais operações e relações entre Conjuntos Fuzzy. 7.6 Modelo Clustering As técnicas de agrupamentos têm por objectivo agrupar documentos em classes. Portanto, dado um conjunto de n documentos, todos avaliados para p termos, tais documentos devem ser agrupados em classes, de forma que os mais semelhantes permaneçam na mesma classe. De forma geral, o número de classes não é conhecido inicialmente. Porém, quando essas técnicas geram grupos não esperados, isso pode sugerir que as relações entre os objectos precisam ser melhor estudadas. É necessária, para a utilização das técnicas de análise de agrupamentos, decisões independentes, que requerem o conhecimento das propriedades dos diversos algoritmos à disposição. Tais decisões podem envolver conteúdos metodológicos ou de carácter técnico. Inicia-se o processo definindo-se os documentos e os objectivos desejados para a aplicação da análise, além dos critérios que irão definir as semelhanças entre eles. Obtidos esses dados, são dispostos na forma de uma matriz, em que as colunas representam os documentos de interesse e as linhas representam os termos. O passo seguinte é a escolha de uma medida que quantifique o quanto dois documentos são parecidos. Tais medidas são denominadas coeficientes de similaridade e são elas que vão gerar a matriz D de similaridade: D ij = d 12 d 13 d d 1n d 2n... d (n-1)n em que d ij representa a distância entre os documentos i e j, ( i = 1,..., n-1 ); ( j = 2,..., n ). Tais coeficientes podem ser divididos em duas categorias: medidas de similaridade e medidas de dissimilaridade. Para a primeira categoria, quanto maior o valor observado, mais parecidos são os documentos; para a segunda, quanto maior o valor observado, menos parecidos são os documentos. De um modo geral, os coeficientes de similaridade são criados com o intuito de moldar situações especiais de interesse do pesquisador. Por esse motivo, dispõe-se de uma série bem ampla de tais medidas. Um levantamento e uma análise das propriedades desses coeficientes ajudam a identificar alguns princípios gerais e encontrar algum coeficiente que melhor se ajuste aos interesses de uma pesquisa em particular. 37

46 Coeficientes de Similaridade Disponíveis para dados binários, baseiam-se na comparação entre o número de atributos comuns para um par de objectos e o número total de atributos envolvidos. Tais coeficientes podem ser facilmente convertidos para coeficientes de dissimilaridade: se a similaridade for denominada s, a medida de dissimilaridade será o seu complementar ( 1 s ). Os coeficientes de similaridades podem ser divididos em dois grupos: os que consideram a ausência conjunta e os que não consideram a ausência conjunta. Alguns coeficientes de similaridade que consideram a ausência conjunta são apresentados na seguinte tabela, sendo a a presença conjunta, b a presença apenas em j, c a presença apenas em i e d a ausência conjunta. Coeficientes Formula Intervalo de Ocorrência Simple Matching (1958) a + d a + b + c + d [0,1] Russel e Rao (1940) a a + b + c + d [0,1] Rogers e Tanimoto (1960) a + d a + d + 2 ( b + c ) [0,1] Hamann (1961) ( a + d ) ( b + c ) a + b + c + d [-1,1] Ochiai II (1957) a d ( a + d ) ( a + c ) ( d + b ) ( d + c ) [0,1] Sokal e Sneath (1963) 2( a + d ) 2( a + d ) + b + c [0,1] Tab Coeficientes de similaridade que consideram a ausência conjunta. Estes coeficientes têm propriedades semelhantes devido ao facto de considerarem a ausência conjunta. Porém, variam em relação à importância dada à ausência e à presença conjunta. Alguns coeficientes de similaridade que não consideram a ausência conjunta são apresentados na tabela seguinte: Jaccard (1908) Coeficientes Formula Intervalo de Ocorrência Anderberg (1973) a a + b + c a a + 2( b + c ) [0,1] [0,1] 38

47 Modelos Czekanowsky (1913) Kulczynski I (1927) Kulczynski II (1927) Ochiai (1957) a 2 2a 2a + b + c a b + c 1 1 a + b a + c a [0,1] [0,+8[ + [0,1] ( a + b ) ( a + c ) [0,1] Tab Coeficientes de similaridade que não consideram a ausência conjunta. A escolha dos coeficientes, que estão restritos ao intervalo [0,1] é mais adequada, pois índices que tendem para infinito são sensíveis a pequenas mudanças, especialmente em a. Alguns destes coeficientes têm princípios fáceis de entender, como por exemplo, o coeficiente de Jaccard, que compara o número de presenças e o número total, excluindo o número de ausências conjuntas. Porém, outros não são de interpretação simples, como é o caso do coeficiente de Kulczynski II, por exemplo. Coeficientes de Associação Tais coeficientes mostram como os pares de documentos estão associados. Geralmente variam de -1, quando a mudança numa variável é acompanhada por mudança de igual magnitude na outra, mas em sentido contrário, a +1 quando a mudança numa variável é acompanhada por mudança de igual magnitude na outra. Alguns deles são mostrados na tabela seguinte: Coeficientes Formula Coeficiente de dissimilaridade Yule Pearson ad ad bc + bc ad bc ( a + b ) ( c + d ) ( a + c ) ( b + d ) McConnaughy a 2 bc ( a + b ) ( a + c ) Tab Coeficiente de associação contidos no intervalo [-1,1]. 1 ad bc 1 ad + bc 2 ad bc ( a + b ) ( c + d ) ( a + c ) ( b + d ) 2 1 bc ( a + b ) ( a + c ) 2 Existem também coeficientes de associação que variam no intervalo [0,+8 [, sendo mostrados na tabela seguinte: a 2 39

48 Coeficientes Formula X 2 ( ad bc ) ( a + b + c + d ) ( a + b ) ( c + d ) ( a + c ) ( b + d ) M.S.C. ( mean square contingency ) a X 2 + b + c + d Tab Coeficiente de associação contidos no intervalo [0,+8 [. Distância Euclidiana Considerada como uma medida de dissimilaridade, a distância euclidiana é interpretada como a distância entre dois documentos, cujas posições são determinadas em relação às suas coordenadas, definidas com referência a um grupo de eixos cartesianos, os quais possuem ângulos rectos entre si. Considerando apenas duas variáveis, sua fórmula é dada por: 2 d ij = ( x ia x ja ) + 2 ( x ib x jb ) em que x ia e x ib representam, respectivamente, as características a e b do documento i e x ja e x jb representam, respectivamente, as características a e b do documento j. Generalizando, para p variáveis, tem-se: 1 2 d ij = p Σ k =1 2 ( x ik x jk ) 1 2 em que x ik e x jk representam, respectivamente, os documentos i e j para a k-ésima variável ( k = 1,..., p ). A distância euclidiana como medida de dissimilaridade pode ser aplicada para dados binários, sendo, contudo, mais comum nesse caso o uso da distância euclidiana quadrada ( D 2 ), pois esta tem a vantagem da diferença entre os documentos ser superior ao número de atributos em que eles diferem, com a restrição de que não haja falta de valores. Assim, todos os valores entre os documentos são baseados no mesmo número de comparações. Uma outra opção é o uso da distância euclidiana média. Técnicas de Agrupamento Existem vários tipos de técnicas de agrupamento, entre as quais estão as seguintes: Técnicas que produzem dendrogramas, em que o primeiro passo é calcular as medidas de dissimilaridade ou similaridade entre todos os pares possíveis de documentos e, assim, formar os grupos por processos aglomerativos ou divisivos. Técnicas que envolvem partições, em que os documentos se podem mover para fora e para dentro dos grupos em diferentes estágios da análise. 40

49 Modelos Inicialmente, na aplicação dessas técnicas, são estabelecidos centros de grupos, arbitrariamente, e cada documento é agrupado em relação ao centro mais próximo. Novos centros são calculados e cada documento move-se para o grupo cujo centro seja mais próximo de si. O processo continua de forma iterativa até encontrar estabilidade nos grupos. Métodos Aglomerativos e Divisivos Nos métodos aglomerativos, consideram-se, inicialmente, t documentos, que serão agrupados de forma sucessiva, baseando-se na sua proximidade, em g grupos ( g < t ). No processo divisivo, o procedimento é oposto, ou seja, inicialmente todos os documentos estão num mesmo grupo, que se divide em um ou mais subgrupos, os quais se subdividem sucessivamente até o final do processo. Nos processos divisivos, se um documento for agrupado de maneira inadequada, a sua posição não será posteriormente corrigida. Métodos Hierárquicos e Não Hierárquicos Um método de agrupamento é considerado hierárquico se ele consiste numa seqüência de ( w + 1 ) agrupamentos ( G 0, G 1,..., G w ), em que G 0 é a partição disjunta de todos os n documentos, e G w é a partição conjunta. O número de partes k i na partição G i deve obedecer à regra k i >= k i+1, em que k i+1 é o número de partes do grupo G i+1. Os métodos são considerados não hierárquicos quando o documento não tem ordem parcial. Métodos Com e Sem Sobreposição Nos métodos sem sobreposição, os grupos, num dado nível hierárquico, são mutuamente exclusivos. A classificação hierárquica é dada quando a sobreposição está relacionada com a hierarquia. Métodos Sequenciais e Simultâneos Nos métodos sequenciais, é aplicada, ao grupo de documentos estudados, uma sequência recorrente. Nos métodos simultâneos, um único procedimento não recorrente é aplicado ao grupo inteiro de documentos. Métodos Sequenciais, Aglomerativos, Hierárquicos e Sem Sobreposição Nestes métodos, conhecidos como SAHN ( Sequencial, Agglomerative, Hierarquic, Nonoverlapping Clustering Methods ), em cada passo do agrupamento há a necessidade de recalcular o coeficiente de similaridade ou dissimilaridade entre os 41

50 grupos estabelecidos e os possíveis candidatos a futuras admissões no grupo. Além disso, reconsidera-se também o critério de admissão de novos membros aos grupos já estabelecidos. O critério de admissão de novos documentos a um grupo, para qualquer método SAHN, pode ser apresentado, de forma geral, como: Seja U uma medida de dissimilaridade e L um documento pertencente a qualquer grupo que não J, K. Sendo J denominado um grupo ou documento, esse juntar-se-á a K, se e somente se U jk < U jl e U jk < U kl. Isso significa que J e K formam o par mais próximo de documentos ou de grupos. Frequentemente, ocorre a seguinte situação: U jk < U jl, mas U jk = U km < U kl, sendo M outro documento ou grupo. Nestes casos, as decisões são tomadas arbitrariamente. A seguir, são apresentados diversos métodos de agrupamento que fazem parte dos métodos SAHN, e têm muita aplicação prática. A escolha de um método de agrupamento depende do material e dos objectivos em questão, pois métodos diferentes podem conduzir a resultados bem distintos. Não há método considerado como o melhor, mas alguns são mais indicados para determinadas situações do que os outros. Método do Vizinho mais Próximo Neste método, também denominado "Single Linkage Clustering", as ligações entre objectos e grupos ou entre grupos são feitas por ligações simples entre pares de objectos, ou seja, a distância entre os grupos é definida como sendo aquela entre os objectos mais parecidos entre esses grupos. Este método leva a grupos longos se comparados aos grupos formados por outros métodos de agrupamento SAHN. Os dendrogramas resultantes deste procedimento são geralmente pouco informativos, devido à informação dos documentos intermediários que não são evidentes. Podendo ser obtidos tanto pelo procedimento aglomerativo, como pelo divisivo. Método do Vizinho mais Longe Neste método, também denominado "Complete Linkage Clustering", a similaridade entre dois grupos é definida como aquela apresentada pelos documentos de cada grupo que menos se parecem, ou seja, formam-se todos os pares com um membro de cada grupo, e a similaridade entre os grupos é definida pelo par que menos se parece. Este método, geralmente, leva a grupos compactos e discretos, tendo os seus valores de similaridade relativamente pequenos. Métodos de Ligação Média Estes métodos também denominados como "Average Linkage Clustering", são uma ponderação entre os métodos do vizinho mais próximo e do vizinho mais longe. É usada a similaridade média dos documentos ou grupo que se pretende unir a um grupo já existente. Há vários tipos de métodos, pois há vários tipos de médias, sendo que quatro são mais comuns, provenientes da combinação de dois critérios alternativos: o agrupamento em função da média aritmética em contraste com o agrupamento com base no assunto. Nos métodos de agrupamento com base na média aritmética, os coeficientes de similaridade ou dissimilaridade médios entre o documento que se pretende agrupar e os documentos do grupo já existente são calculados. O método do assunto pesquisa o 42

51 Modelos assunto dos documentos para construir grupos e medir a dissimilaridade relativa a esse ponto entre qualquer documento ou grupo candidato. Os métodos ponderados pretendem dar pesos iguais a todos os ramos do dendrograma, sendo que o número de documentos que compõem cada ramo não é considerado. 7.7 Modelo Contextual O Modelo Contextual foi desenvolvido tendo como principio que todos os documentos contêm um contexto, pois um documento trata um assunto, usando um conjunto de frases encadeadas que apenas fazem sentido num determinado contexto. Identificando o contexto de uma pesquisa, dado que as pesquisas efectuadas também possuem um contexto, a identificação de informações relevantes pode ser efectuada ao nível de contextos. Tem como objectivo melhorar a relevância dos documentos retornados em pesquisas e também diminuir o problema de vocabulário. Os problemas de vocabulário ocorrem porque nos documentos são usados termos semelhantes para ideias diferentes ou são usados termos diferentes para as mesmas ideias. Logo os documentos que possuem as palavras identificadas na pesquisa são considerados relevantes, enquanto que os que não possuem as palavras das pesquisas são considerados irrelevantes, mesmo que tratem a mesma ideia, apenas porque possuem palavras com morfologia diferente. Porem a identificação dos contextos dos documentos não é fácil. A abordagem mais usual, define o contexto como sendo um conjunto de palavras que representam o assunto. Como cada palavra pode estar presente em mais de um contexto, deve existir um peso associado, indicando a relevância da palavra no contexto. Os documentos são então indexados de acordo com os contextos definidos, através de uma classificação onde as características que descrevem determinado contexto são localizadas nos documentos. A identificação do contexto da pesquisa, é efectuado com base nas palavras da pesquisa, podendo no entanto serem identificados vários contextos possíveis. Dependendo dos sistemas o contexto escolhido pode ser o contexto mais relevante, tendo em conta o peso das palavras, ser mostrado ao utilizador todos os contextos possíveis para escolha, utilizar um perfil do utilizador, analisando pesquisas anteriores, de forma a identificar uma tendência, o que poderá não ser muito correcto, ou serem escolhidos todos os contextos possíveis, o que poderá ter um conjunto grande de resultados. As características do contexto, para que o contexto seja bem descrito, devem ser definidas manualmente por um especialista no assunto que o contexto descreve. Devem ser escolhidas as palavras mais relevantes do assunto, sinónimos e palavras específicas. Devendo também ser associado a cada palavra um grau de relevância. Quanto mais palavras forem utilizadas, menor e mais preciso será o conjunto de documentos. O conjunto mais relevante para o utilizador, é dado pelo conjunto resultante da intercessão dos conjuntos associados a cada palavra do contexto: D REL = D 1 D 2... D n 43

52 O melhor conjunto possível de encontrar, é aquele que abrange todos os documentos do contexto, e somente estes documentos, podendo dizer-se que o contexto é preciso: D PREC = D 1 D 2... D n = D 1 D 2... D n Sendo D X o conjunto associado à palavra X pertencente ao contexto. Os documentos são retornados ordenados por relevância, sendo que os documentos que têm uma pontuação maior são considerados mais relevantes. A pontuação de um documento é determinada pela presença das palavras do contexto. Quantas mais palavras do contexto forem encontradas no documento maior será a sua pontuação. Um dos maiores problemas deste modelo é a definição dos contextos, que se forem definidos incorrectamente, provocará provavelmente que os documentos retornados sejam irrelevantes para as necessidades do utilizador. 44

53 8. Indexação e Normalização A primeira tarefa que um Sistema de Recuperações de Informações deve realizar para que o utilizador possa efectuar pesquisas é a catalogação dos documentos. Todos os documentos adicionados ao sistema devem ser analisados ou descritos para que possam ser recuperados. Nessa fase as características dos documentos são identificadas e adicionadas ao sistema. Para que o sistema possa encontrar rapidamente um documento a partir de um conjunto de características descritas numa consulta, deve existir um índice. Esse índice é construído através de um processo de indexação. Indexar significa, justamente, identificar as características de um documento e colocá-las numa estrutura denominada índice. O índice pode ser compreendido como uma espécie de filtro que é capaz de seleccionar os documentos relevantes e manter de fora os documentos irrelevantes. Quando a indexação é realizada manualmente, a pessoa encarregada de a fazer deve analisar o conteúdo de cada documento e identificar as palavras-chave que o caracterizam. Os termos de índice podem variar, ou seja, dependendo da área das pessoas que irão utilizar o sistema, um documento pode ser indexado por termos diferentes, correspondentes ao vocabulário utilizado na área. Nesse caso, geralmente, há um conjunto de termos predefinidos e específicos para cada assunto da área em questão. A pessoa encarregada de indexar os documentos deve identificar a que assunto pertence cada um deles e utilizar então os termos adequados. Essa técnica, denominada vocabulário controlado, facilita muito a localização de informações pois os utilizadores estão acostumados a utilizar os termos usados na sua área de interesse. Por outro lado, se o sistema for utilizado numa área diferente da área para a qual foi indexado, não será tão eficiente porque os problemas relacionados à diferença de vocabulário serão mais frequentes. Pelo facto dos sistemas actuais serem muito mais abrangentes, tanto em termos de conteúdo, como em termos de audiência, não é recomendado utilizar essas técnicas de controlo de vocabulário. Devendo o sistema utilizar todas as palavras possíveis de um documento como termos de índice e oferecer ao utilizador ferramentas de apoio à elaboração de consultas capazes de auxilia-lo na escolha dos termos mais adequados. Este processo de descrição, onde as palavras dos documentos são colocadas num índice é denominado indexação. O objectivo da indexação é identificar e construir pontos de acesso para um documento. Os sistemas podem permitir a combinação ou relacionamento de termos durante o processo de indexação ou durante a consulta. No primeiro caso, onde os termos são combinados e relacionados no momento da indexação, diz-se que o índice utiliza uma linguagem pré-coordenada. Nesse momento, as variações morfológicas são eliminadas e as palavras são agrupadas em classes que são mapeadas para um único termo. No segundo caso, quando não é feita uma análise à priori dos termos e seus relacionamentos, costuma-se dizer que o índice possui uma linguagem pós-coordenada. Esse nome deve-se ao facto de a pessoa que pesquisa as informações ter que seleccionar e relacionar os termos durante o processo de pesquisa. Ambos os casos possuem suas vantagens e desvantagens. Quando o índice é précoordenado os documentos são organizados de maneira a facilitar sua localização em classes conhecidas pelas pessoas de determinada área. Quando uma dessas pessoas deseja algum documento, sabe que classes contêm determinadas informações. Por outro lado, pessoas que não dominam a área ficam sem saber que classes, ou termos 45

54 correspondentes utilizar e podem pensar que não existem documentos relevantes à sua necessidade de informação. Já no caso pós-coordenado, os documentos não são organizados em classes de assuntos similares. Assim, para que um utilizador localize um documento de determinado assunto ele deve utilizar todos os termos e suas variações morfológicas e ortográficas, pois o vocabulário não é controlado. Apesar desse facto, a principio, parecer uma desvantagem, o utilizador tem maior liberdade de escolha, podendo aumentar ou diminuir a abrangência de sua consulta. Para tanto, porém, ele deve conhecer o domínio da informação de que necessita e os termos usados para a descrever. Actualmente existem muitas ferramentas de auxílio à especificação de consultas que podem facilitar esse processo. Os índices possuem também o factor de exaustividade, que mede a quantidade de assuntos distintos que um índice é capaz de reconhecer. Quanto maior a exaustividade, maior a abrangência e menor a precisão, já que mais palavras podem levar ao mesmo documento. Muito relacionado com a exaustividade está o factor especificidade, que é a capacidade dos termos de índice descreverem correctamente os tópicos de um documento. Quanto mais específico for um índice, maior a precisão e menor a abrangência. Esses dois factores podem ser manipulados por uma indexação pré-coordenada, e é possível encontrar um nível de equilíbrio para os dois numa população fechada de utilizadores. 8.1 Indexação Automática O processo de indexação automática tem como objectivo identificar palavras relevantes nos documentos de uma colecção de documentos e armazená-las em uma estrutura de índice. As fases normalmente encontradas nesse processo são a identificação de termos (simples ou compostos), a eliminação de stopwords (palavras irrelevantes), a normalização morfológica (stemming) e a selecção de termos. Para cada uma dessas etapas existem diversas técnicas. Dependendo da situação a ordem de aplicação dessas etapas pode variar ou alguma delas pode não ser utilizada. Fig. 8.1 Processo de Indexação Automática. 46

55 Indexação e Normalização 8.2 Identificação de Termos Essa fase nada mais é do que a aplicação de um parser que identifique as palavras presentes nos documentos, ignorando os símbolos e caracteres de controle de arquivo ou de formatação. Pode-se utilizar um dicionário a fim de fazer a validação das sequências de caracteres identificadas a fim validar sua existência e corrigir possíveis erros ortográficos (dictionary lookup). Um dicionário de sinónimos pode auxiliar na normalização do vocabulário, caso se deseje trabalhar com um vocabulário controlado. Diversas técnicas adicionais de padronização podem ser aplicadas: a passagem de todos os caracteres para a forma maiúscula, ou minúscula; a substituição de múltiplos espaços e tabulações por um único espaço; a padronização de datas e números; a eliminação de hífenes. Quando uma técnica é usada, deverá ser usada também na consulta do utilizador. A utilização de uma técnica de padronização não oferece somente vantagens. Se a transformação de caracteres maiúsculos para minúsculos for adoptada, por exemplo, não é possível diferenciar substantivos próprios de comuns nas pesquisas. 8.3 Identificação de Termos Compostos Muitas palavras têm um significado diferente quando utilizadas em conjunto. Isso costuma acontecer porque existem conceitos que só podem ser descritos pela utilização de duas ou mais palavras adjacentes. Algumas vezes uma palavra é combinada com outra a fim de modificar ou refinar seu significado. Quando isso ocorre, essas duas ou mais palavras não podem ser separadas quando indexadas. Caso sejam separadas, o conceito ou ideia perde-se. A fase de identificação de termos compostos (Word-phrase formation) tem como objectivo identificar essas expressões compostas. Existem basicamente duas formas de identificação de expressões. A primeira é efectuada com base na identificação de termos que ocorrem com frequência numa colecção de documentos. Nesse caso torna-se interessante que o sistema apresente ao utilizador as expressões identificadas, para que possa identificar as correctas. A segunda consiste na utilização de um dicionário de expressões que indique então que palavras devem ser combinadas. Esse tipo de técnica torna a pesquisa mais precisa, já que os termos compostos costumam aparecer num número menor de documentos, tornando a consulta menos abrangente. Porém, esses termos são geralmente armazenados no índice de forma composta e, nesse caso, o utilizador não pode localizá-los de forma separada. Uma solução para esse problema consiste em armazenar ambas as formas: combinada e separada. Caso a técnica de identificação de termos compostos não seja aplicada, o utilizador ainda pode especificar na sua consulta a informação que eles representam. Isso pode ser feito indicando que dois ou mais termos devem aparecer no mesmo documento. Em alguns sistemas é possível especificar a distância máxima que esses termos devem ser encontrados. Essa especificação deve ser cuidadosa, pois se não especificada correctamente aumenta a abrangência de uma consulta, ao contrario de torna-la mais precisa. 47

56 8.4 Eliminação de stopwords Existem algumas palavras presentes num documento textual que são utilizadas com o intuito de ligar as frases. Essas e outras palavras, pertencentes a classes de palavras cuja finalidade é auxiliar a estruturação da linguagem, tais como conjunções e preposições, não necessitam ser incluídas na estrutura de índice. Além dessas, existem também palavras cuja frequência na colecção de documentos é muito alta. Palavras que aparecem em praticamente todos os documentos de uma colecção não são capazes de discriminar documentos e também não devem constar na estrutura de índice. Todas essas palavras consideradas sem valor para a pesquisa devido à sua natureza frequente ou semântica são denominadas palavras negativas (ou stopwords). Essas palavras dificilmente são utilizadas numa consulta, pois a sua indexação apenas torna o índice maior do que o necessário. Existem estudos que oferecem listas de stopwords, denominadas stoplists ou dicionários negativos, que podem ser livremente utilizadas na elaboração de ferramentas que realizem o processo de eliminação de stopwords. 8.5 Normalização Morfológica Durante o processo de indexação, dependendo do caso, torna-se interessante eliminar as variações morfológicas de uma palavra. As variações morfológicas são eliminadas através da identificação do radical de uma palavra. Os prefixos e os sufixos são retirados e os radicais resultantes são adicionados à estrutura de índice. Essa técnica de identificação de radicais é denominada lematização ou stemming. As características de género, número e grau das palavras são eliminadas. Isso significa que várias palavras acabam sendo mapeadas para um único termo, o que aumenta a abrangência das consultas. Com essa técnica o utilizador não necessita preocupar-se com a forma ortográfica com a qual uma palavra foi escrita no texto. Assim, uma ideia, independente de ter sido escrita através de seu substantivo, adjectivo ou verbo, é identificada por um mesmo radical. Essa aparente vantagem ocasiona uma diminuição na precisão, já que o utilizador não consegue procurar por uma palavra específica. Existem várias formas de identificação do radical de palavras. Uma delas consiste na definição de uma lista de prefixos e ou sufixos encontrados no vocabulário de uma língua. Após, toda vez que um desses prefixos ou sufixos é encontrado, ele é retirado da palavra. Um problema dessa técnica é que, dependendo da língua ou do contexto, o padrão encontrado nem sempre corresponde a um prefixo ou sufixo, pois ele pode fazer parte do radical da palavra. Outra solução consiste na utilização de um dicionário morfológico onde o radical de cada palavra poderia ser identificado correctamente. Porém, esses dicionários não costumam ser completos e são específicos da língua para a qual foram construídos. É possível também identificar os padrões que ocorrem com frequência nas palavras. Para tal deve-se considerar o texto como uma sequência de caracteres sem sentido semântico e segmentar essa sequência em strings de tamanho predefinido. Essas strings de tamanho fixo são denominadas anagramas ou nagramas (n-grams), onde n indica o tamanho das strings. Costuma-se trabalhar com bigramas, trigramas e pentagramas. Apesar de ser considerada uma forma de stemming, a técnica de 48

57 Indexação e Normalização anagramas não costuma ser utilizada para fins de recuperação, já que os termos tornamse incompreensíveis. Além de eliminar as variações morfológicas das palavras e aumentar a precisão das consultas, o método de stemming também é capaz de reduzir o tamanho de um índice em até 50%. Essas vantagens, dependendo da aplicação, podem acabar por se transformar em problemas. Na classificação de documentos, por exemplo, a variação morfológica é extremamente importante, pois aumenta a discriminação entre documentos. Devido a isso, sugere-se que as palavras sejam indexadas utilizando a forma ortográfica encontrada nos documentos e que o utilizador se encarregue de especificar que variações morfológicas deseja durante o processo de consulta. Em alguns sistemas é possível que o utilizador especifique uma máscara. O utilizador pode-se aproveitar dessa característica, utilizando o radical da palavra seguido do símbolo adoptado pelo sistema para representar a de máscara. Nesse caso, o sistema considera que todas as palavras que iniciam com o radical especificado são o mesmo termo, e todos os documentos em que elas aparecem acabam sendo retornados. O sistema pode ainda identificar as variações morfológicas durante a consulta e mostrá-las para que o utilizador decida quais são as de seu interesse, eliminando assim variações incorrectas. A normalização do vocabulário também compreende técnicas de tratamento de anáforas, ou seja, a localização de pronomes e a identificação dos substantivos a quem eles se referem. Essas técnicas, porém, exigem processamento de linguagem natural e nem sempre são aplicadas. 8.6 Cálculo de Relevância Nem todas as palavras presentes em um documento possuem a mesma importância. As palavras utilizadas mais frequentemente costumam ter um significado mais importante. Palavras constantes em títulos ou em outras estruturas também possuem uma importância maior, já que o autor do documento deve tê-las colocado lá por considera-las como sendo muito relevantes e descritivas para a sua ideia. Os substantivos e complementos também podem ser considerados mais relevantes que os demais termos de uma oração. Logo, o cálculo de relevância de uma palavra pode basear-se na frequência das palavras, na análise estrutural do documento ou na posição sintáctica de uma palavra. As técnicas mais comuns são baseadas na frequência das palavras na colecção de documentos, pois as outras necessitam de métodos adicionais, que exigem maior complexidade. 8.7 Selecção de Termos Os arquivos de índice de um sistema geralmente consomem muito espaço, podendo chegar a 300% do espaço correspondente aos documentos originais. Esse tamanho pode ser diminuído excluindo-se alguns termos de menor importância dos documentos. Assim, há uma redução no espaço de dimensões que modelam os documentos. As técnicas de selecção de termos relevantes podem ser baseadas no peso dos termos ou na sua posição sintáctica. 49

58 É importante salientar que a selecção de termos deve ser realizada com cautela. Algumas aplicações são influenciadas pelos termos de menor importância (clustering, classificação e sumarização, por exemplo). Cabe portanto ao criador da aplicação ou ao utilizador decidir se esses termos são relevantes ou não. Além disso, existem técnicas de compactação que podem ser aplicadas aos índices, permitindo que os termos menos importantes também sejam utilizados sem que o tamanho do índice ocupe muito espaço de armazenamento Filtragem Baseada no peso do Termo A determinação da importância de um termo geralmente é dada pelo seu peso. A técnica mais simples de redução de dimensões é a filtragem baseada no peso de um termo, e consiste em eliminar todos os termos abaixo de um limiar (threshold) estabelecido pelo utilizador ou pela aplicação Selecção Baseada no peso do Termo Mesmo depois de filtrados, o número de termos resultantes ainda pode ser alto. Esse número pode ser reduzido pela selecção dos n termos mais relevantes. Essa técnica de selecção é denominada truncagem, pois se estabelece um número máximo de características a serem utilizadas para caracterizar um documento e todas as outras são eliminadas. Para tal, é necessário que as características estejam ordenadas de acordo com seu grau de relevância. Assim, somente as primeiras x características são utilizadas. A truncagem pode ser aplicada em técnicas de descoberta de conhecimento a fim de aumentar a performance dos algoritmos, já que quanto maior o número de características a ser comparado, mais demorado se torna o processo. Um dos maiores problemas dessa técnica consiste justamente em estabelecer a quantidade mínima de palavras necessária para uma boa descrição dos documentos, sem que suas características mais relevantes sejam perdidas no processo Selecção por Latent Semantic Indexing A técnica de indexação semântica latente (latent semantic indexing LSI) foi desenvolvida com o intuito de reduzir o número de dimensões utilizadas pelo modelo vectorial. Tem como objectivo transformar os vectores de documentos originais para um espaço dimensional pequeno e significativo, fazendo uma análise da estrutura relacional de termos na colecção de documentos. A redução é feita identificando-se as dimensões mais similares. Uma vez identificadas, elas são aproximadas por um processo matemático de rotação. Isso faz com que as palavras mais similares acabem numa mesma dimensão. Em alguns casos, sinónimos e outras palavras de forte correlação acabam sendo colocados na mesma dimensão, o que minimiza um pouco os problemas relacionados à diferença de vocabulário. 50

59 Indexação e Normalização A LSI pode ser aplicada de forma global ou local. Geralmente a truncagem é realizada localmente. Esse tipo de análise requer um pré-processamento que identifique o vocabulário presente em todos os documentos da colecção Selecção por Análise de Linguagem Natural É possível aplicar algumas das técnicas de análise de linguagem natural para identificar as palavras mais importantes de um documento. Essas técnicas incluem a análise sintáctica e a análise semântica dos documentos. Com uma gramática bem definida para um domínio específico, é possível realizar uma análise sintáctica em orações não muito complexas. Os objectos que compõem uma oração costumam ter posições sintácticas definidas. É possível influenciar o peso dos termos encontrados nessas posições a fim de torná-los mais ou menos relevantes. Podese, também, simplesmente seleccionar os termos mais importantes, de acordo com sua categoria sintáctica, e ignorar os outros. Com isso, somente os termos mais importantes são adicionados a estrutura de índice. Porém, esse tipo de técnica exige uma base de conhecimento contendo todas as combinações sintácticas possíveis, ou seja, uma gramática. 51

60 52

61 9. Ferramentas Neste capítulo serão descritas algumas ferramentas, que implementam tecnologias de Text Mining. Algumas destas ferramentas poderão não utilizar todas as técnicas já abordadas, sendo algumas delas específicas para determinada funcionalidade e outras mais genéricas. 9.1 IBM Intelligent Miner For Text A IBM Intelligent Miner For Text, é uma ferramenta de análise de documentos e descoberta de informação. Segundo a descrição do fabricante, o produto oferece aos utilizadores uma ampla variedade de sofisticadas ferramentas de análise de texto, componentes de recuperação full-text e ferramentas de acesso a Web, para enriquecer as soluções de inteligência de negócios. Pode-se construir uma grande variedade de aplicações informações classificadas vindas de fontes noticiosas; análises de portfólios de patentes, cartas de admissão de clientes e páginas Web da concorrência; permitir suporte à decisão; e orientar pesquisas direccionadas na intranet. O Intelligent Miner for Text inclui: Ferramentas de análise de texto; Mecanismos avançados de descoberta de informação; Ferramentas de acesso a Web. Tarefas Os métodos de análise de texto podem ser usados individualmente ou em várias combinações diferentes para criar soluções de análise de texto personalizadas. Algumas tarefas que podem ser efectuadas usando estes métodos são: Atribuir documentos a categorias pré-definidas. Dividir documentos em grupos. Identificar informação relevante num documento. Reconhecer o idioma de um documento. Pesquisar documentos. Pesquisar documentos internos. Pesquisar na Web. Atribuir documentos a categoria pré-definidas Esta tarefa tem como objectivo classificar documentos, para que se possa separar os documentos em categorias. Para esta tarefa o método de Classificação pode ajudar no envio automático de cada mail ao departamento adequado. São analisados os documentos, determinando a que categoria ou categorias o documento pertence de acordo com um sistema de categorias pré-definidas. O resultado obtido do método é uma lista de nomes de categorias e níveis de confidencialidade para cada documento. 53

62 Este método pode ser usado, também para classificar todos os documentos de uma intranet, para que a obtenção de um documento existente na intranet possa ser mais fácil. Dividir documentos em grupos Esta tarefa tem como objectivo agrupar documentos por categorias, ou seja, organizar os documentos por similaridade. Para esta tarefa o método de Clustering pode facilitar o processo de navegação, para se encontrar informações similares e relacionadas. São procurados os conceitos chave num conjunto de documentos e agrupados automaticamente por conceitos semelhantes ou relacionados. Os grupos são criados dinamicamente sem existir a necessidade de grupos pré-definidos. Este método gera os títulos dos grupos, que são constituídos por um conjunto de frases relevantes para os documentos contidos no grupo. Este método pode ser usado também para fornecer uma visão geral de um grande conjunto de documentos, identificar semelhanças ocultas entre documentos, identificar documentos duplicados ou apenas demasiado semelhantes, para que possam ser removidos e identificar documentos que possam estar num conjunto errado, ou seja, se um grupo tem apenas um documento, este poderá não ser relevante para o conjunto de documentos. Identificar informação relevante num documento Para esta tarefa os métodos de Extracção, Análise de Distribuição, Regras Associativas, podem ajudar a reconhecer informações significativas nos documentos. Outras funções de extracção detectam outros tipos de itens significativos, como datas, números e quantidades de dinheiro. Reconhecer o idioma de um documento Esta tarefa tem como objectivo, identificar o idioma em que se encontra escrito um documento ou conjunto de documentos. Para esta tarefa é usado o método de Identificação de Línguas, que permite descobrir automaticamente o idioma em que o documento foi escrito. Mesmo para documentos curtos, a sua precisão chega perto dos 100%. Utiliza como dicas, palavras com uma frequência elevada e estatísticas sobre as distribuições de determinadas sequências de caracteres para determinar o idioma. Este método pode ser usado também para organizar automaticamente colecções de dados indexáveis por idioma ou restringir resultados de pesquisa a documentos de um determinado idioma. Pesquisar documentos 54

63 Ferramentas Esta tarefa tem como objectivo, permitir descobrir informação e obter documentos em bibliotecas enormes, em que os documentos poderão estar em idiomas distintos. O mecanismo avançado de pesquisa Text Search Engine, fornece aos recursos de pesquisa, a habilidade para indexação e pesquisa em muitos idiomas, utilizando dicionários de suporte, e para o processamento de consultas com uma combinação de idioma natural e Booleanas. Com o suporte de secção, é possível definir secções nos documentos que podem ser indexadas e pesquisadas. O poder real do Text Search Engine recai nas suas análises linguísticas profundas do texto de um documento antes do mesmo ser indexado e dos termos da consulta antes de uma pesquisa. Isto apresenta um resultado de pesquisa de alta precisão e recursividade, permitindo encontrar muita coisa, mas não em excesso. Pesquisar documentos internos Esta tarefa tem como objectivo, gerir toda a documentação interna, ou seja tratar o conjunto de documentos da intranet. Para esta tarefa é usada a ferramenta NetQuestion Solution, que permite a geração de serviços de pesquisa da Web. Os serviços de pesquisa podem ser baseados num servidor local Web ou estendidos para abranger um conjunto restrito (ou domínio) de sites Web localizados em vários servidores Web. Pode ser configurado também para agrupar automaticamente informações sobre a concorrência, percorrendo automaticamente os sites da concorrência, indexando as informações. Pesquisar na Web Esta tarefa tem como objectivo permitir obter rapidamente informações sobre determinados Web sites. Para esta tarefa é usada a ferramenta Web Crawler. O Web Crawler é uma ferramenta que examina uma página Web para encontrar ligações a outras páginas, depois examina estas páginas para encontrar outras ligações, e assim por diante. Ele navega pela web de página em página, seguindo ligações HTML seleccionadas. Pode ainda ser usado para produzir mapas de web sites, indicando o nº de vezes que determinada página foi acedida, e pesquisar informação filtrada, permitindo efectuar pesquisas especificas em determinados web sites. Combinando Métodos Através da combinação dos métodos usados para as tarefas descritas anteriormente, pode-se obter um conjunto mais alargado de tarefas em que se pode usar esta ferramenta. Algumas das tarefas que podem ser efectuadas através da combinação de métodos, são as seguintes: Tornar o Marketing eficaz. Mostrar outros como este. 55

64 Pesquisar com categorias. Ajudar o mecanismo de pesquisa a ler a sua mente. Sobreviver ao excesso de mails. Indexar páginas selectivamente. Tornar o Marketing eficaz Esta tarefa tem como objectivo identificar que publico será alvo de campanhas e que empresas são concorrentes. Mostrar outros como este Esta tarefa tem como objectivo efectuar uma pesquisa com base num documento, para obter documentos relacionados. Pesquisar com categorias Esta tarefa tem como objectivo restringir a lista de resultados de uma pesquisa por categorias. Na pesquisa de texto, um dos problemas principais é que muitos dos documentos encontrados próximos do topo de uma lista de resultados não são relevantes à consulta. Uma maneira de se evitar isto é fazer com que o utilizador seleccione algumas categorias ou informações para restringir as consultas. Ajudar o mecanismo de pesquisa a ler a sua mente Esta tarefa tem com objectivo indicar ao mecanismo de pesquisa que tipos de documentos são considerados relevantes. Sobreviver ao excesso de mails Esta tarefa tem como objectivo lidar com a sobrecarga de mails normalmente recebidos, que devido à possibilidade de conter informação valiosa, não deverão ser ignorados. Indexar páginas selectivamente Esta tarefa tem como objectivo monitorizar web sites e indexar páginas para futuras pesquisas. 56

65 Ferramentas 9.2 TextMining Suite InText Mining é uma empresa que se dedica ao desenvolvimento de ferramentas baseadas em descoberta de conhecimento em dados não estruturados. Fornece um conjunto de ferramentas para processamento e análise de documentos. Oferece assim ferramentas para: Análise qualitativa e quantitativa de conjuntos de documentos. Obtenção inteligente de informações textuais. Obtenção e análise de informações textuais disponíveis na Internet. Recuperação inteligente de textos. Resumo de informações textuais. As ferramentas disponibilizadas são as seguintes: Serviços de Mineração de Textos (Descoberta de Conhecimento) Realiza serviços de preparação e análise de conjuntos de documentos. A preparação inclui a transformação de páginas HTML e outros formatos de arquivos em texto, bem como a selecção de amostras para análise e o tratamento de erros ortográficos. Ajuda a organização cliente na determinação de que documentos podem ser tratados e como, e também, ajuda na separação dos documentos em subconjuntos. Inclui análise qualitativa (semi-automática), para identificação de temas e análise quantitativa (automática), para gerar resultados estatísticos. Serviços de Inteligência de Negócios com Mineração de Textos Inclui o Serviço de Mineração de Textos, acrescentando o serviço de interpretação dos resultados obtidos com o primeiro serviço. Permitindo que as preocupações de identificação dos documentos e interpretação dos resultados obtidos do tratamento dos mesmos, não sejam atribuídas ao cliente. Analisa o contexto organizacional, de forma a identificar que tipos de textos deverão ser tratados e analisados. Inclui um serviço de identificação dos conceitos mais relevantes dos documentos em análise. Os resultados finais obtidos após a interpretação dos documentos são retornados para o cliente. Produto TextMining Suite É uma ferramenta que contém um conjunto de ferramentas integradas para Text Mining. As ferramentas que a constituem são: Ferramenta para análise léxica de um documento ou de um conjunto de documentos textuais. Ferramenta para extracção de resumos. Ferramenta para identificação de listas de conceitos de um conjunto de documentos. Ferramenta para classificação, identificação de assuntos, temas ou conceitos nos documentos. Ferramenta para cálculo de diferenças, identificando palavras ou conceitos que aparecem exclusivamente num documento ou num conjunto de documentos. 57

66 Ferramenta de associações, determinando que palavras ou conceitos podem ser associados entre si. Ferramenta de Data Mining contextual, descobrindo regras entre conceitos (probabilidade condicional). Ferramenta para clustering de textos, efectuando a separação automática de documentos em grupos sem a necessidade prévia de determinação dos grupos. Ferramenta para recuperação booleana de documentos, encontrando documentos que contenham certos termos, podendo-se utilizar ligações booleanas AND e OR. Ferramenta para recuperação por conceitos, o utilizador fornece os conceitos desejados e um grau de importância e a ferramenta encontra os documentos com estes conceitos e estabelece a importância desses documentos. Ferramenta para recuperação de documentos por similaridade, o utilizador fornece um texto como entrada e a ferramenta encontra os documentos mais similares, retornando a importância dos documentos com os mais similares no topo. Esta ferramenta possui ainda os seguintes serviços: Produto TextMining Suite para Análise de Currículos. Ferramenta usada para identificação de competências individuais, ou para analisar os pontos fortes e fracos de um conjunto de profissionais Treino e Consultoria no Uso do TextMining Suite, fornece formação para o uso do Text Mining. Esta formação pretende apenas apresentar o funcionamento do produto. Para se obter informação de como usar as ferramentas da suite, é disponibilizado um serviço de consultoria, que inclui auxilio na identificação de documentos para análise, ajuda na selecção e preparação desses documentos, indicação do conhecimento que poderá ser obtido, e que ferramentas deverão ser usadas para cada situação. Produto para Geração de Resumos Pretende extrair resumos de documentos orientados pelo utilizador de páginas Web. Tendo como objectivo minimizar a sobrecarga de informações obtidas pelos mecanismos de pesquisas na Web. Produto Assistente Virtual Tem como objectivo disponibilizar uma personagem virtual ou digital para interagir com os utilizadores Web, através de linguagem natural. Tem duas finalidades básicas, que são as seguintes: Servir como marketing para um Web site, atraindo utilizadores e divulga r a marca. Obter informações sobre o cliente ou problema, através de diálogos em linguagem natural, para decidir que produto é mais adequando para o caso do cliente, oferecendo assim produtos personalizados. 58

67 Ferramentas 9.3 TextAnalyst O TextAnalyst é uma ferramenta desenvolvida pela Megaputer de pesquisa semântica e análise de documentos. Possibilitando efectuar análises semânticas, navegação eficiente, sumarização rápida e agrupamento de um conjunto de documentos já reunidos. Fig Janela de visualização base (Estrutura de termos, Resultados e Documento base) Tem como tarefas disponíveis: Identificação dos principais conceitos representados nos documentos, e das relações semânticas entre esses conceitos, avaliação da importância desses conceitos e criação automática de uma estrutura hierárquica de conceitos. 59

68 Fig Estrutura hierárquica de conceitos. Criação de uma rede semântica, de forma a representar o significado dos documentos, servindo como base para a restante análise. Fig Rede Semântica de conceitos. Sumarização com qualidade dos documentos, sendo a qualidade do resumo fornecida por uma combinação de métodos de investigação linguística e neural. Pesquisa focalizada a um tema, permitindo ao utilizador definir um dicionário de palavras que devem ser excluídas e incluídas, para que a investigação explore um determinado tema. Navegação eficiente através dos conjunto de documentos, permitindo navegar através de hiperligações aos documentos originais. 60

69 Ferramentas Criação de conjuntos de expressões em linguagem natural, para criação de hipertexto. Fig Navegação através de hiperligações aos documentos originais. Indexação automática dos documentos. Obtenção de informações em documentos, com base em palavras-chave. Esta ferramenta foi desenvolvida, tendo como alvo principal os seguintes utilizadores: Editores de jornais. Analistas de imprensa. Investigadores. Cientistas. Analistas políticos. Investidores financeiros. Advogados. Tendo como utilizadores existentes: Instituições governamentais. Empresas de advogacia e consultoria. Centros médicos. Organizações de investigação cientifica. Editores de livros em formato electrónico. Centros de suporte a clientes. Instituições politicas. Estudantes universitários. 61

70 9.4 dtsearch O dtsearch é um sistema de recuperação textual que trabalha sobre arquivos de processadores de texto, HTML, PDF, etc. Pode pesquisar texto rapidamente em milhares de arquivos porque constrói índices que registam a localização das palavras nos arquivos. Podendo também pesquisar em arquivos não indexados, e em combinações de arquivos indexados e não indexados. Entre os principais recursos estão: Fig Caixa de diálogo para actualização de índices. Pesquisas rápidas em gigabytes de texto, normalmente em menos de um segundo; Múltiplas opções de pesquisa textual (booleana, fuzzy, thesaurus, etc.); Destaque para os alvos (hits) da pesquisa; Visualizador de imagens. Os usos típicos do dtsearch são a recuperação de informações em textos de: Correspondência (cartas, faxes, mails). Contratos. Currículos de Profissionais. Fichas Médicas. Processos Legais. Artigos de Periódicos. Descrições de Medicamentos. Legislação. Páginas Internet. Código Fonte. Normas e Procedimentos. 62

71 Ferramentas Propriedades Capacidade O dtsearch pode criar um número ilimitado de índices e não há limite para o número de documentos que pode indexar em cada índice. Na pesquisa o dtsearch pode trabalhar em simultâneo com até 100 índices. O tamanho dos índices variam com o tipo dos documentos mas, tipicamente, é da ordem de 25% do tamanho dos documentos originais. Compatibilidade O dtsearch automaticamente reconhece e trabalha com os formatos usuais de processadores de texto, bases de dados, HTML, PDF, ZIP, arquivos OLE, etc. Velocidade As pesquisas sobre arquivos indexados são realizadas em geral em menos de um segundo. Os algoritmos proprietários do dtsearch asseguram indexação rápida mesmo em grandes conjuntos de documentos. Na actualização de índices o dtsearch só reindexa os arquivos que foram modificados ou adicionados. Redes Suporta indexação e pesquisas concorrentes. Trabalha em todas as redes usuais. Pesquisas Para efectuar uma pesquisa o utilizador tem ao seu dispor uma caixa de diálogo que sumaria as várias possibilidades, mostra as palavras indexadas e o histórico das pesquisas anteriores: A pesquisa pode ser feita por palavras, frases, palavras com erros de ortografia, usando sinónimos, etc. 63

72 Fig Caixa de dialogo para pesquisas. Os tipos básicos de pesquisa estão descritos a seguir: Pesquisa por Frases Operadores Booleanos: permitem simplesmente clicar para adicionar ligações como e/ou/não em qualquer pesquisa de palavras ou frases. Pesquisa por Proximidade: permite especificar a distância entre os termos da pesquisa. Caracteres Especiais: podem ser usados caracteres como "?" no lugar de um caractere, ou "*" no lugar de múltiplos caracteres. Pesquisa Fonética (inglês): permite pesquisar palavras com sons próximos como "Smythe" ao procurar "Smith". Pesquisa por Raízes das Palavras (Stemming): permite encontrar variações como "aplica", "aplicado", ou "aplicando", numa pesquisa sobre "aplicação". Recurso de Números: permite pesquisar números em intervalos. Por exemplo, "entre 6 e 36". Campos: podem ser usados campos para pesquisa em documentos que contenham alguma estruturação, ou para pesquisa em bases de dados. Pesquisa Fuzzy A pesquisa fuzzy é feita com algoritmos exclusivos do dtsearch e localiza termos mesmo que contenham erros de ortografia. As pesquisas fuzzy podem ter o nível de tolerância ajustado entre 0 e 10, para que se possa adequar a pesquisa ao nível de erros provável em documentos digitados, capturados via OCR, etc. Por exemplo, uma pesquisa sobre Brasília com um índice fuzzy de 1 encontraria Brazilia; Com índice 2 64

73 Ferramentas poderia encontrar Brazilia e Brazilha. O índice pode ser definido na ocasião da pesquisa. Pesquisa em Linguagem Natural A linguagem natural trabalha actualmente apenas sobre textos em inglês. Permite pesquisar em linguagem corrente, por exemplo "get me Sam's memo on the 1996 CorpX takeover". Também conhecida como "query-by-example", a pesquisa de linguagem natural localiza todos os arquivos que contenham palavras que se adeqúem aos termos da pesquisa proposta. O dtsearch faz então uma análise de relevância ponderando automaticamente os termos segundo a frequência e a densidade dos alvos. Pesquisa por Thesaurus Também conhecida como pesquisa contextual, a pesquisa por thesaurus permite, por exemplo, procurar por "contrato" e localizar também "acordo". O dtsearch oferece diversos níveis de expansão automática de sinónimos com base em thesaurus que o utilizador pode definir, ou com base num amplo vocabulário da língua inglesa (WordNet), incluído no dtsearch. No momento da formulação da pesquisa o thesaurus pode ser consultado para ajudar a seleccionar os termos a serem incluídos na pesquisa. Visualização de Documentos O resultado da pesquisa lista todos os arquivos encontrados juntamente com o número de alvos (hits) localizados. Os visualizadores internos do dtsearch apresentam os documentos encontrados com os alvos em destaque. Podendo-se percorrer os arquivos, mudar de alvo para alvo, ou fazer pesquisa textual no documento encontrado. O dtsearch também pode preparar um relatório da pesquisa: um sumário executivo apresentando todos os alvos de um arquivo, junto com partes do texto escolhidas pelo utilizador, e com hiperligações que permitem mudar para os documentos originais. Se os arquivos estiverem zipados, o dtsearch automaticamente faz a descompactação e apresenta os arquivos originais. A figura a seguir apresenta o resultado de uma pesquisa: à esquerda estão os arquivos encontrados e o respectivo número de ocorrência dos termos pesquisados. À direita está um dos documentos com os alvos em destaque. 65

74 Fig Visualização de resultados. Utilizadores Entre outros, os utilizadores do dtsearch estão em: Indústrias. Serviços de informação. Empresas de recrutamento de pessoal. Laboratórios de pesquisa. Escritórios de advogacia. Escritórios de patentes. Empresas de software. Editoras. 9.5 SemioMap O SemioMap é uma ferramenta desenvolvida pela Entrieva, para extracção de informações de um conjunto de documentos. Permite extrair todas as frases relevantes incluídas num conjunto de documentos, facilitando a exploração automática de conceitos num grande conjunto de documentos. Pode processar um conjunto diverso de documentos diferentes, por exemplo pode processar documentos ASCII, HTML, Microsoft Word, Word Perfect, etc. Constrói uma estrutura contendo um conjunto de documentos dinâmicos, através do uso de análises linguísticas, de forma a identificar relacionamentos de conceitos em documentos diferentes. Tem como tarefas: Extracção Léxica, efectuado uma leitura automática de grandes volumes de documentos e extraindo frases relevantes a partir desses documentos. Agrupamento da Informação, identificando os relacionamentos entre as frases e construindo uma rede léxica. 66

75 Ferramentas Visualização Gráfica, disponibilizando um mapa gráfico para que os utilizadores possam navegar eficazmente através das frases e relacionamentos dos documentos. Níveis de Detalhe Fig Visualização gráfica. Na visualização gráfica dos resultados, é permitido ao utilizador escolher os níveis de detalhe com que deseja visualizar os resultados. Os níveis de detalhe existentes variam entre 1 e 10, sendo o nível 1 mais geral, mostrando apenas os conceitos com maior relevância, e o nível 10 mais detalhado, mostrando um conjunto maior de conceitos. 67

76 Fig Níveis do mapa de conceitos. Arquitectura do SemioMap Fig Arquitectura SemioMap. Esta ferramenta é normalmente usada em ferramentas de pesquisa, para gerir conjuntos de documentos e para visualização de conceitos e relações. 68

77 Ferramentas Foi desenvolvida, tendo com alvo principal qualquer pessoa ou organização que lide com um grande conjunto documentos, podendo processar gigabytes de informação. Tendo como utilizadores mais usuais: Investigadores científicos. Organizações governamentais. Instituições médicas. Instituições farmacêuticas. Empresas de consultoria. Analistas de mercado. 9.6 Eurekha Eurekha é um software desenvolvido no Instituto de Informática da universidade Federal do Rio Grande do Sul cuja finalidade é de auxiliar o processo de análise e recuperação de informações provenientes de bases de dados textuais. Basicamente, o que o Eurekha faz é analisar o conteúdo de textos e identificar aqueles que contêm o mesmo assunto. Estes documentos similares são atribuídos a um grupo. No final do processo de análise, o software oferece ao utilizador um conjunto de diferentes grupos encontrados e seus respectivos documentos. Deste modo, tem-se uma distribuição dos documentos por assunto. Isso facilita a análise de uma grande quantidade de informações, pois basta analisar as palavras principais de cada grupo para identificar se o assunto dos textos do grupo em questão é relevante. No caso do assunto ser relevante, uma análise mais profunda pode ser feita no grupo. Essa característica torna o processo de pesquisa e recuperação de informações muito mais prático. 69

78 Fig Distribuição de documentos por grupos. Os documentos que o Eurekha analisa podem ser de diversos tipos pois ele foi construído para trabalhar com textos não formatados e sem uma estrutura padrão. Isso permite, inclusive, que ele seja utilizado para analisar páginas WEB. Além dessa possibilidade, o software oferece uma série de outras opções que permitem a análise de conteúdo de um conjunto de documentos. Podendo efectuar uma análise léxica, que mostra as palavras contidas em cada documento e seus respectivos valores de frequência e relevância, e uma análise das palavras relevantes, que gera um gráfico contendo as palavras mais relevantes de determinado grupo, facilitando a identificação do assunto desse grupo. 70

79 Ferramentas Fig Análise Léxica: Lista de palavras mais frequentes. 71

80 Fig Conjunto de palavras relevantes de um grupo. O software também permite ao utilizador definir listas de palavras a serem ignoradas no processo de agrupamento, denominadas stopwords, utilizadas no processo de construção e irrelevantes para a compreensão do contexto. 9.7 Análise Comparativa As ferramentas mostradas anteriormente, são ferramentas que utilizam algumas técnicas de Text Mining, no seu processamento, podendo ser úteis para a descoberta de conhecimento em textos. De entre um conjunto de várias ferramentas que utilizam técnicas Text Mining, foram escolhidas algumas. Essa escolha deve-se aos seguintes factos: Primeiro, foram seleccionadas algumas ferramentas, que além de se conseguir obter informações sobre o seu funcionamento, também tinham informações disponíveis sobre casos práticos, que serão apresentados no capítulo seguinte. Por fim, foi acrescentada a ferramenta IBM Intelligent Miner For Text, apesar de não existir informações disponíveis sobre casos práticos, devido ao facto de todas as informações recolhidas apontarem para que fosse a ferramenta mais completa, em termos de utilização de técnicas de Text Mining. De seguida apresenta-se uma tabela, com a comparação entre as ferramentas apresentadas no que diz respeito à utilização de técnicas Text Mining: 72

81 Ferramentas IBM Intelligent Miner For Text TextMining Suite TextAnalyst dtsearch SemioMap Eurekha Indexação X X X X Recuperação X X X X X Extracção X X X X X Análise de Distribuição Diferença X X X X X Resumos X X Clustering X X X X X Identificação X de Linguas Detecção de Duplicados X Associação X X X X Classificação X X Tab. 9.1 Análise comparativa de ferramentas. De notar que esta análise comparativa poderá não estar completa. Devido ao facto de algumas organizações, não terem muitas informações disponíveis acerca do funcionamento, das suas ferramentas. Mesmo assim analisando as informações disponíveis, já é possível efectuar uma comparação razoável. Nota-se rapidamente que as ferramentas IBM Intelligent Miner For Text e TextMining Suite, são duas ferramentas relativamente completas, permitindo um conjunto de funcionalidades elevado, dado que além de ser possível a utilização de qualquer das técnicas assinaladas, também é possível a interligação de técnicas, criando novas funcionalidades. Em relação a outras ferramentas, nota-se que algumas estão direccionadas apenas a uma área. Por exemplo a ferramenta dtsearch é usada para recuperação de documentos, o TextAnalyst é usada para análise de documentos já recuperados, e o Eurekha é usada para efectuar agrupamento de documentos. 73

82 74

83 10. Casos Práticos Neste capítulo serão demonstrados alguns casos práticos do uso de tecnologias de Text Mining. Os casos que serão apresentados, estarão divididos pelas seguintes ferramentas: TextMining Suite. TextAnalyst. dtsearch. SemioMap. Eurekha TextMining Suite Análise de Reclamações de Clientes Neste caso foram utilizados textos provenientes de uma pesquisa de satisfação realizada com os clientes de uma empresa de Televisão por assinatura. O objectivo da pesquisa era o de recolher reclamações e sugestões sobre os diferentes pacotes de assinatura oferecidos pela empresa. Com isso, além de avaliar as reclamações dos clientes, seria possível identificar os clientes mais lucrativos e os clientes mais problemáticos, encaminhando-os para um eventual tele-marketing. Cada registo correspondia a um texto contendo uma reclamação ou sugestão de um cliente. A resposta era de carácter aberto, onde a pessoa podia responder como bem entendesse e utilizando suas próprias palavras. O objectivo da aplicação do Text Mining, neste caso, foi o de identificar as maiores reclamações por pacote e relações entre elas. Durante todo o processo a ferramenta utilizada foi o TextMining Suite. Após converter os textos para um formato compatível com o da ferramenta, técnicos da InText, leigos no contexto da empresa de Televisão por assinatura, passaram a identificar todos os conceitos relacionados com este negócio. Isto foi feito através do estudo dos termos presentes em todos os textos. Após analisar os termos e identificar possíveis variações morfológicas (género, número e grau) e erros comuns de ortografia, os conceitos mais relevantes foram definidos. A tabela seguinte apresenta alguns dos conceitos identificados e sua frequência na base de textos. Conceito Frequência Filmes 50,7% Custo 20,4% Programação 19,6% Pacote 15,6% Revista 10,7% Pay Per View 6,2% Desporto 5,3% Concorrente 5,3% Imagem 4,4% 75

84 Som 4,4% Documentários 3,1% Séries 3,1% Futebol 2,7% Tab Conceitos mais relevantes. Com este tipo de relatório identifica-se rapidamente que mais da metade dos registos estavam relacionados com o conceito Filmes. Após a análise quantitativa dos conceitos presentes na base de reclamações/sugestões, passou-se à fase de identificação de associações entre os conceitos. Este tipo de processamento é capaz de gerar um relatório que indica que sempre que determinado conceito aparece em determinada reclamação outro conceito também aparece. A tabela seguinte contem o conjunto de associações identificadas. Associação Grau de Associação Imagem Qualidade 80,0% Pacote A Custo 66,67% Concorrência Filmes 58,3% Filmes Repetição 39,5% Atendimento Demora 37,5% Concorrência Custo 33,3% Filmes Qualidade 18,4% Filmes Concorrência 6,1% Filmes Pay Per View 6,1% Filmes Lançamento 4,4% Tab Regras de associação. Voltando ao conceito Filmes, nota-se que em 40% dos casos em que este conceito é citado, também é citado o conceito Repetição. Finalmente, fez-se a análise de distribuição de conceitos por tipo de pacote, permitindo a identificação do que cada tipo de consumidor mais reclama ou sugere. A tabela seguinte apresenta a distribuição dos conceitos mais citados em dois tipos de pacote. Conceito Pacote A Frequência Filmes 36,4% Custo 24,2% Repetição 22,7% Programação 22,7% Pacote B Conceito Frequência Custo 38,5% Atendimento 23,1% 76

85 Casos Práticos Filmes 15,4% Tab Distribuição de conceitos por tipo de pacote. Este tipo de relatório permite verificar as semelhanças e diferenças entre cada perfil. Note-se que no perfil de cliente que possui o Pacote A o conceito Filmes é o mais citado, sendo que no Pacote B, aparece em último lugar. Outra análise possível é a identificação dos conceitos mais relevantes por perfil de interesse. Na tabela seguinte, são listados os conceitos mais citados de acordo com o canal preferido do cliente (Filmes, Desporto ou Notícias). Conceito Canal Preferido Filmes Desporto Noticias Filmes 39,4% 60,9% 65,4% Custo 30,3% 17,2% 19,2% Pay Per View 15,2% 4,7% 7,7% Concorrência 15,2% 3,1% 0% Atendimento 6,1% 7,8% 11,5% Clube 0% 3,1% 7,7% Ponto Extra 0% 3,1% 0% Tab Conceitos mais citados por tipo de canal. Os resultados deste tipo de análise permitiram a empresa definir estratégias a fim de melhorar seus serviços cujo número de reclamações fosse muito alto, evitando a perda de clientes. Além disso, uma vez identificadas as características e interesses dos clientes de cada pacote torna-se mais fácil a elaboração de um projecto de conquista de novos clientes, oferecendo-lhes o serviço mais adequado ao seu perfil. Da mesma forma, foi possível realizar uma prospecção dos potenciais clientes interessados em adquirir eventos pay-per-view e identificar novos produtos a serem incluídos nas programações de cada pacote, principalmente nos casos onde os conceitos de produtos não existentes também eram encontrados os nomes dos concorrentes Análise de Marketing Político Imagem Política Para este caso, foi escolhido um jornal que possuía acesso aos seus artigos via WEB e foram obtidos todos os artigos disponíveis no site sobre determinado político brasileiro. O objectivo deste foi o de identificar como a imprensa via o seu governo e qual era a sua imagem perante a sociedade. Os técnicos da InText analisaram as palavras presentes nos documentos recuperados e montaram os conceitos a partir desta análise. Pelo facto do site do jornal utilizado oferecer a recuperação de documentos por períodos diferentes de tempo, as análises foram feitas em diferentes anos. Assim, foi possível verificar a evolução da imagem deste político no decorrer de todo o seu mandato. O conceito Corrupção, por exemplo, somente foi encontrado nos documentos pertencentes ao ano de Isto pode significar que neste ano algum escândalo de corrupção esteve associado a este político. Após, por algum motivo, talvez a solução do 77

86 esquema de corrupção ou o desinteresse da imprensa no mesmo, o conceito não foi mais citado. O conceito Eleição cresceu de 25% em 1997 para 33,7% em 1999, provavelmente devido à proximidade das eleições no ano de Este tipo de análise pode auxiliar políticos a identificar pontos onde sua imagem necessita ser melhor trabalhada Análise de Marketing Político Avaliação de Planos Neste caso, foram comparados os programas eleitorais dos candidatos José Serra e Ciro Gomes, cujas informações estavam disponíveis nos seus sites oficiais ( e A análise dos conceitos mais relevantes foi feita através da identificação das palavras mais significativas dos programas de governo dos dois candidatos. Para o candidato José Serra, foram identificadas 4608 palavras e para Ciro Gomes A fim de não prejudicar qualquer um dos dois candidatos, a análise foi feita sobre a proporção em que os conceitos aparecem (frequência relativa), que é calculada dividindo-se o número de vezes que o conceito ocorre pelo número total de conceitos. A análise de conceitos permitiu identificar as semelhanças e diferenças entre os planos de cada candidato. A seguir são apresentadas três tabelas: a primeira contendo as semelhanças entre os planos, a segunda contendo aqueles temas considerados mais importantes para Serra e a última com os temas mais importantes para Ciro. Conceito Candidato Serra Ciro Agricultura_Agronegócios 0, ,00521 Alimentação_Alimentos 0, ,00077 Ambiente_Amazônia 0, ,00153 Aposentadoria_Aposentados 0, ,00045 Constituição 0, ,00061 Conceito Tab Temas Semelhantes. Candidato Serra Ciro Assentamentos_Assentados 0, ,00030 Desemprego 0, ,00061 Empregos 0, ,00196 Escolas_Escolar 0, ,00184 Educação 0, ,00153 Exportação 0, ,00153 Saúde 0, ,00015 Penitenciarias_Presídios 0, ,00030 Tab Temas mais citados no plano de Serra. 78

87 Casos Práticos Conceito Candidato Serra Ciro Corrupção 0, ,00031 Habitação 0, ,00092 Impostos 0, ,00770 Mercosul 0, ,00092 Pobres_Pobreza 0, ,00353 Policia_Policiamento 0, ,00229 Salário 0, ,00321 Universidade 0, ,00168 Tab Temas mais citados no plano de Ciro. Verificou-se que José Cerra possui os seguintes temas exclusivos: Drogas, Hospitais, Remédios, Adolescência e Alfabetização. Já Ciro Gomes Possui Narcotráfico, Antidumping e Biotecnologia como temas exclusivos. Este tipo de análise permite ao eleitor identificar o perfil de cada candidato e suas políticas, podendo escolher o candidato mais adequado aos seus interesses. Este tipo de análise também pode ser utilizado por outros candidatos a fim de realizar contracampanhas Instituição de Ensino Durante todo ano as instituições de ensino superior recebem centenas de alunos provenientes de diversas regiões e com diferentes interesses. Neste caso, é de extrema importância para a instituição, a fim de oferecer e continuar a oferecer o ensino mais adequado ao seu público, conhecer os motivos que levaram os alunos a escolhê-la. Para este caso foi realizada uma pesquisa com alunos recém chegados a uma instituição de ensino da região. A pesquisa possuía, entre outras questões, a seguinte pergunta: Por que você optou por esta instituição?. Sendo uma pergunta de carácter aberto, os alunos podiam respondê-la como bem entendessem, utilizando quantas palavras fossem necessárias. Os técnicos da InText, após analisarem as palavras mais relevantes dos documentos contendo as respostas, identificaram os conceitos mais relevantes. A tabela seguinte apresenta alguns dos conceitos mais citados. Conceito Frequência Proximidade 40,1% Custos 16,1% Processo de Selecção 13,1% Barato 12,4% Família 10,9% Ensino 10,2% Nocturno 8,8% Indicação 7,3% Tab Motivos da escolha da instituição. 79

88 Conceito Curso A B C D Proximidade 100,0% 32,7% 47,0% 15,8% Família 0,0% 20,4% 10,9% 0,0% Vestibular 42,0% 12,2% 0,0% 26,3% Fácil_Entrada 28,6% 0,0% 0,0% 10,5% Indicação 28,6% 0,0% 0,0% 0,0% Barato 28,6% 14,3% 13,0% 0,0% Ensino 0,0% 16,3% 13,0% 0,0% Custos 0,0% 14,3% 26,1% 0,0% Nocturno 0,0% 0,0% 0,0% 57,9% Única 0,0% 0,0% 0,0% 31,6% Tab Conceitos mais citados de acordo como o tipo de curso. Este tipo de análise permite realizar a análise qualitativa e quantitativa das questões abertas de pesquisas. Este resultado possibilitou a instituição identificar melhores estratégias de marketing. Como, por exemplo, uma divulgação mais ampla de que seu Curso D, que é o único de carácter nocturno na região, e divulgação de que a instituição se encontra mais próxima do que as outras das regiões onde os alunos moram ou trabalham. Também a possibilitou desmistificar a ideia de que seus cursos fossem caros, como sugerido pelos próprios alunos TextAnalyst CaseBank CaseBank é um fornecedor de soluções diagnosticas baseadas na experiência à indústria aeroespacial. Desde a sua criação em 1997, a companhia dedica-se a fornecer aos seus clientes, ferramentas e soluções para controlar o seu conhecimento de resolução de defeitos. Estas ferramentas obtêm, organizam, e partilham resoluções de defeitos. O principal produto oferecido pela CaseBank é o software SpotLight que usa a tecnologia de raciocino baseado em casos. Usando o SpotLight, os técnicos de uma linha aérea podem resolver problemas complexos eficientemente. As organizações aeroespaciais tais como o Bombardier, o Rockwell Collins, e General Electric são alguns dos utilizadores actuais do SpotLight. Usando um processo baseado em casos, a CaseBank desenvolve bases de casos de qualidade elevada que contêm o conhecimento de resolução de defeitos com base na experiência. O conteúdo das bases de casos é obtido através de uma variedade de fontes electrónicas e de papel, do conhecimento que os clientes obtêm dos seus sistemas de informação. A CaseBank procurava uma ferramenta de análise de texto que pudesse ser usada para ajudar no processo de desenvolvimento dos casos e reduzir desse modo o custo. A ferramenta TextAnalyst foi usada num conjunto de repositórios electrónicos existentes que continham resoluções de problemas e informações de falhas, permitindo aos colaboradores poder avaliar rapidamente o conteúdo, a qualidade, e o valor dos 80

89 Casos Práticos repositórios para uso no desenvolvimento de casos. A CaseBank estimou que a ferramenta permitiria poupar tempo na preparação dos casos, permitindo assim satisfazer melhor as necessidades dos seus clientes. O TextAnalyst foi usado nos repositórios que continham descrições textuais de problemas e resoluções de reparações em aviões. Foi usada para efectuar análises do conteúdo e criar redes semânticas, que fornecem uma vista geral dos conceitos mais importantes e suas relações. Usando a rede semântica e uma estrutura temática o utilizador pode rapidamente compreender o conteúdo do repositório. Os conceitos descobertos fornecem um conjunto de tópicos ao utilizador, que poderá não conhecer o tema, ajudando-o a formular perguntas significativas. Uma abstracção automática permite criar sumários exactos. A potencialidade semântica da pesquisa permite que um utilizador encontre rapidamente informação relevante nos documentos. Além disso, o TextAnalyst permite também que o utilizador modifique a rede semântica e os tópicos das hiperligações dentro dos documentos. O TextAnalyst é usado internamente na CaseBank para identificar e avaliar os conteúdos de repositórios electrónicos, que contêm informação da resolução de defeitos e de manutenção Clontech CLONTECH Laboratories, Inc. é uma companhia de biotecnologia situada em Palo Alto, Califórnia. A CLONTECH tem como objectivo ajudar a acelerar o processo de descoberta, abrindo caminho às ferramentas que permitem aos investigadores fazer novas perguntas e investigar sistemas bastante mais complexos dos que eram previamente possíveis. Na CLONTECH, o TextAnalyst foi usado primeiramente em problemas relacionados com a análise de expressões dos genes, que é uma das áreas em maior desenvolvimento. Agora que a sequencia do genoma humano foi encontrado, ainda muitos problemas desafiadores na área da genética se encontram pela frente. Um deles é a compreensão do papel de cada gene nas células humanas. A informação mais detalhada e acessível, sobre esta área, e que ao mesmo tempo se torna mais difícil de pesquisar, são as publicações científicas. O TextAnalyst fornece maneiras eficientes e exactas de obter volumes muito grandes da informação, fazendo uma representação compacta dos factos encontrados em jornais científicos. O TextAnalyst é usado pelos cientistas da CLONTECH que trabalham no campo do bioinformatica como uma parte do projecto DCNcA. Permite aos utilizadores fornecer descrições funcionais para um grande número de genes sujeita à análise de expressão. 81

90 10.3 dtsearch Sharp Electronics Corp. - SharpDesk O software SharpDesk, que permitia aos utilizadores a manutenção de um conjunto de documentos, após a integração da ferramenta dtsearch, passou a permitir também que os utilizadores possam pesquisar documentos independentemente da sua fonte. Através duma interface intuitiva, os utilizadores da Sharpdesk podem dinamizar o seu trabalho através de um conjunto de ferramentas integradas de uso fácil. Os documentos podem ser visualizados, modificados, organizados, arquivados, imprimidos ou distribuídos. Através do uso da opção Composer, os utilizadores podem criar, imprimir ou enviar por mail, relatórios integrados e propostas compostas por diferentes tipos de ficheiros. Dez licenças de SharpDesk são incluídas com a opção Scanning do SharpDesk para permitir tirar o máximo partido das impressoras, scanners e faxes existentes na rede. O dtsearch fornece um conjunto de opções de pesquisa de documentos, para que se possa obter o máximo de precisão na pesquisa dos tipos de documentos mais usados, incluindo os formatos de Office, HTML, e PDF. Com a integração com o motor de OCR do SharpDesk, os utilizadores podem também efectuar pesquisas de documentos do tipo TIFF. Ao efectuar uma pesquisa o utilizador introduz um conceito e/ou outra propriedade relevante, e o motor do dtsearch permite que o SharpDesk obtenha um conjunto de imagens e hiperligações relevantes, mostrando os documentos em miniaturas ou em sumários emedicine.com emedicine.com, foi o primeiro desenvolvimento de educação médica colocada na Internet, contendo uma enorme referencia bibliográfica, sendo que para as pesquisas é usado o dtsearch. Tendo o emedicine a maior concentração de informação médica disponível na Internet, o dtsearch permite aos utilizadores acederem rapidamente à informação desejada, e efectuarem a selecção de um conjunto maior de informação. O emedicine é um recurso enorme, tanto para os consumidores como para profissionais. O motor do dtsearch pode procurar gigabytes do texto num segundo porque constrói um índice que armazena a posição das palavras nos documentos. Uma vez o índice construído, a velocidade da pesquisa é geralmente menos do que um segundo, mesmo procurando milhares de documentos. O emedicine permite que médicos e consumidores possam obter através da Internet informações de apoio clínico que, no passado, teriam que ser pesquisadas manualmente em livros. As edições novas de livros de referência requerem frequentemente dois a cinco anos para que sejam retiradas das livrarias, podendo assim a informação ficar desactualizada. Ao contrario do que acontece com o emedicine, em que a informação pode ser actualizada diariamente. Os documentos incluem também imagens, áudio e vídeo, bem como hiperligações para outros locais. 82

91 Casos Práticos 10.4 SemioMap Industria Farmacêutica A tecnologia Semio da Entrieva resolve dois problemas claros de negócio para a indústria farmacêutica. Primeiramente, fornece meios sistemáticos de garantir que as pesquisas e as informações existentes podem ser encontradas, usadas, reusadas e reaplicadas em contextos novos. Em segundo, fornece meios de organizar e de aceder a informação gerada por diversas áreas ou por grupos dispersos geograficamente. O resultado é um custo menor, com um desenvolvimento mais eficiente e uma maior rapidez na venda de medicamentos ou equipamento médico. Estes benefícios são obtidos sem mudanças significativas na estrutura existente. Os resultados são apresentados num formulário bastante familiar aos profissionais do negócio, ou seja, realça significativamente práticas de negócio existentes sem custo significativo. A tecnologia é usada em investigação e desenvolvimento de algumas das maiores companhias farmacêuticas e médicas do mundo, incluindo Pfizer, Eli Lilly, AstraZeneca, Hoffmann-La Roche, GlaxoSmithKline, MDS Sciex, entre outras. Eli Lilly Para competir eficazmente num mundo em constante mudança, é necessário ter acesso rápido a informação relevante, independentemente da sua origem. A biblioteca de informações de moléculas da Eli Lilly, por exemplo, é uma aplicação de manutenção de conhecimento que se encontra ligado ao portal incorporado da companhia. A biblioteca permite a obtenção de informações sobre moléculas por parte de diversos utilizadores. A construção da biblioteca custou cerca de $2 milhões em 2000, permitindo que o tempo de pesquisas baixasse de três a quatro horas para cerca de cinco minutos. Esta alteração de tempos de resposta permitiu aumentar no conjunto dos trabalhadores, cerca de 480 horas diárias de trabalho. O portal foi construído usando a tecnologia da Plumtree Software Inc., usando com ferramentas de pesquisa e classificação as ferramentas da Semio. No total, empregados, médicos, e investigadores têm o acesso ao portal de forma a obter informações Jornalismo A tecnologia Semio dirige-se a problemas sentidos por editores jornalísticos, devido à quantidade elevada de informações recolhidas, e à falta de meios para as analisar. Sendo que a vantagem sobre a concorrência, depende acima de tudo da capacidade de organizar, controlar, alcançar e usar eficazmente a informação que se desenvolveu ou adquiriu. A tecnologia Semio permite a editores classificar eficientemente conjuntos de documentos, que podem variar das dezenas aos milhões, com exactidão e flexibilidade. Por esta razão este tipo de tecnologia é bastante usado em jornalismo, tal como a Stanford HighWire Press e Vibrant Media. 83

92 Stanford HighWire Press A Stanford HighWire Press, contem um dos maiores repositórios mundiais sobre ciências da vida. Necessitou de meios automatizados de classificar 12 milhões de documentos, e fornecer funcionalidades de pesquisa a investigadores. Foram implementadas as ferramentas da Semio para classificar os artigos, mas rapidamente passou a ser usado também para ajudar noutras funcionalidades. Tratando categorias e conceitos de um conjunto 324 jornais Eurekha Caso das Flores Neste caso, o utilizador E. B. Flowrer, interessado em montar uma floricultura virtual na Internet, utilizou o Eurekha para analisar informações sobre este mercado. Segundo ele, necessitava de informações sobre negócios semelhantes a fim de descobrir como estes se comportavam e se eram realmente lucrativos. Além disso, ele necessitava de identificar o perfil das pessoas que compram flores via Internet e que tipos de flores compram. Como todo bom empreendedor, Flowrer queria também recolher detalhes técnicos e científicos sobre o assunto, de forma a ficar identificado com a área. No princípio, todas estas informações poderiam ser obtidas pela Internet. Mas, E. B. Flowrer optou por consultar também uma base de dados mais técnica. No Brasil, a Empresa Brasileira de Pesquisa Agropecuária EMBRAPA é o órgão mais adequado para se obter estas informações. A EMBRAPA possui diversas unidades, que se localizam no interior da maioria dos estados brasileiros e no Distrito Federal. O conjunto de documentos da EMBRAPA está organizado em CD-ROM. Sendo anualmente produzidos CDs pela própria EMBRAPA contendo o catálogo completo das pesquisas realizadas na área durante o ano, acumulando às informações de anos anteriores. Sendo um dos maiores problemas da área de recuperação de informações, a selecção de termos mais adequados para a localização das informações de que o utilizador necessita. Sentindo esta dificuldade, E. B. Flowrer procurou auxílio de uma bibliotecária, especialista na área, que possuía formação na área de identificação dos termos mais adequados para as necessidades dos utilizadores. A bibliotecária, que trabalha em uma instituição ligada a EMBRAPA, ajudou-o a formular a consulta na base de dados. Neste caso, o termo mais adequado para obter as informações sobre o assunto deveria ser "Planta Ornamental". Esse tema abrange flores, folhagens, arbustos e até árvores ornamentais. Foram analisados os registros do CD-ROM de 1998 que continham um total de referências. Deste total de referências, 111 registros foram obtidos. Todos contendo referências a artigos da área de plantas ornamentais. Após a eliminação da lista de palavras irrelevantes, o software realizou o processamento dos registros e identificou a subdivisão existente no tema maior que era "Planta Ornamental". Cada sub-assunto foi colocado em um grupo isolado. O software identificou as palavras mais relevantes de cada grupo, permitindo com que E. B Flowrer pudesse verificar o assunto de cada um deles rapidamente. Essa característica mostra que o software pode ser utilizado também como ferramenta de resumo e análise de enormes quantidades de informações resumindo-as para o utilizador automaticamente. 84

93 Casos Práticos Solicitando com que o software gerasse um relatório contendo as palavras mais importantes de cada grupo, E. B. Flowrer conseguiu compreender melhor o assunto e identificar as tendências de pesquisa e de publicações na área. Analisando esse relatório detalhadamente, Flowrer e a bibliotecária que o auxiliou identificaram a distribuição que pode ser visualizada na figura seguinte. Fig Distribuição dos conceitos relevantes. Com o Eurekha também foi possível verificar quais as palavras mais frequentes, de modo a obter-se um quadro capaz de demonstrar quais os termos mais usados. Isso vem a facilitar a pesquisa de informações na Internet, já que os conceitos utilizados são livres e Flowrer não tinha ideia de quais utilizar antes de realizar esse processo. Após conhecer a área mais profundamente e identificar seus termos técnicos, Flowrer resolveu realizar uma pesquisa de informações na Internet O objectivo era analisar as 100 primeiras páginas obtidas, porém, por problemas de acesso e de sites inexistentes, 78 páginas foram vistas. A distribuição de assuntos encontrados encontrase na figura seguinte. 85

94 86 Fig Distribuição de conceitos na Internet.

Exibir mais