DESCOBERTA DE CONHECIMENTO EM TEXTO APLICADA A UM SISTEMA DE ATENDIMENTO AOS USUÁRIOS DE UM PLANO DE ASSISTÊNCIA À SAÚDE

Transcrição

1 DESCOBERTA DE CONHECIMENTO EM TEXTO APLICADA A UM SISTEMA DE ATENDIMENTO AOS USUÁRIOS DE UM PLANO DE ASSISTÊNCIA À SAÚDE Aline Regina de Oliveira Miranda Dissertação de Mestrado apresentada ao Programa de Pós-graduação em Engenharia Civil, COPPE, da Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Mestre em Engenharia Civil. Orientador: Nelson Francisco Favilla Ebecken Rio de Janeiro Setembro de 2009

2 DESCOBERTA DE CONHECIMENTO EM TEXTO APLICADA A UM SISTEMA DE ATENDIMENTO AOS USUÁRIOS DE UM PLANO DE ASSISTÊNCIA À SAÚDE Aline Regina de Oliveira Miranda DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO LUIZ COIMBRA DE PÓS-GRADUAÇÃO E PESQUISA DE ENGENHARIA (COPPE) DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIAS EM ENGENHARIA CIVIL. Aprovada por: Prof. Nelson Francisco Favilla Ebecken, D. Sc. Prof a. Valéria Menezes Bastos, D. Sc. Prof a. Beatriz de Souza Leite Pires de Lima, D. Sc. RIO DE JANEIRO, RJ BRASIL SETEMBRO DE 2009

3 Miranda, Aline Regina de Oliveira Descoberta de Conhecimento em Texto Aplicada a um Sistema de Atendimento aos Usuários de um Plano de Assistência à Saúde / Aline Regina de Oliveira Miranda. Rio de Janeiro: UFRJ/ COPPE, XI, 82 p.: il; 29,7 cm. Orientador: Nelson Francisco Favilla Ebecken Dissertação (mestrado) UFRJ/ COPPE/ Programa de Engenharia Civil, Referências Bibliográficas: p Mineração de Textos. 2. Descoberta de Conhecimento em Textos. I. Ebecken, Nelson Francisco Favilla. II. Universidade Federal do Rio de Janeiro, COPPE, Programa de Engenharia Civil. III. Titulo. iii

4 AGRADECIMENTOS Gostaria de fazer um agradecimento a todos àqueles que de alguma forma contribuíram para esta realização. À Luis Carlos, meu marido, e ao meu filho Lucas que sempre estiveram comigo me apoiando em todos os momentos, obrigada pelo incentivo e carinho. Meus agradecimentos à gerência do plano de saúde da Petrobras que permitiu que eu utilizasse suas bases de dados para tal objetivo. A realização deste trabalho só foi possível graças à colaboração direta e indireta de várias pessoas, nossa gratidão a todas elas. iv

5 Resumo da Dissertação apresentada à COPPE/UFRJ como parte dos requisitos necessários para a obtenção do grau de Mestre em Ciências (M.Sc.) DESCOBERTA DE CONHECIMENTO EM TEXTO APLICADA A UM SISTEMA DE ATENDIMENTO AOS USUÁRIOS DE UM PLANO DE ASSISTÊNCIA À SAÚDE Aline Regina de Oliveira Miranda Setembro / 2009 Orientador: Nelson Francisco Favilla Ebecken Programa: Engenharia Civil A dissertação tem como objetivo explorar a Mineração de Textos através de um estudo amplo e completo com o intuito de se extrair padrões úteis e desconhecidos em uma base de dados do Serviço de atendimento aos usuários de um plano de saúde de uma grande empresa. Os conhecimentos obtidos foram analisados e validados junto aos especialistas do domínio. A interessabilidade e a acionabilidade dos conhecimentos obtidos permitiram ações que são relevantes para o aperfeiçoamento da operação do sistema. Alguns comentários são apresentados para ilustrar o interesse da pesquisa. v

6 Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the requirements for the degree of Master of Science (M.Sc.) DISCOVERY OF KNOWLEDGE IN TEXT SYSTEM APPLIED TO A USER ATTENDING SYSTEM OF HEALTH ASSISTANCE PLAN Aline Regina de Oliveira Miranda September / 2009 Advisor: Nelson Francisco Favilla Ebecken Department: Civil Engineering The following essay is intended to explore the Text Mining through an extensive and comprehensive study in order to extract useful and unknown patterns from a database of the customer service users of the health care plan of large company. The knowledge obtained was analyzed and validated with experts in the field. The interestingness and actionability of the knowledge obtained allowed actions that are relevant to the improvement of the business. Some comments are presented to illustrate the interest of research. vi

7 SUMÁRIO LISTA DE FIGURAS... ix LISTA DE TABELAS... x LISTA DE SIGLAS E ABREVIATURAS... xi 1. Introdução Objetivo Relevância Estado da Arte Descoberta de conhecimento em Bases de Dados Processamento de Linguagem Natural - PLN Descoberta de Conhecimento em Textos Organização da dissertação Metodologia O processo de Mineração de Textos Tipos de Abordagens de Dados Coleta de Dados Pré-processamento Identificação de Palavras no Texto Tokenização Retirada de palavras desnecessárias (stopwords) Normalização Morfológica (Stemming) Dicionários de dados (Thesaurus) Indexação Mineração Análise Estudo de Casos Descrição do problema Obtenção do arquivo de dados Pré-processamento dos dados Mineração vii

8 3.4.1 O programa SAS Lematização Exploração dos Termos Resultados Estatísticas básicas da base de dados das manifestações Análise dos agrupamentos Conclusão REFERÊNCIAS BIBLIOGRÁFICAS viii

9 LISTA DE FIGURAS Figura Metodologia de Mineração de Textos com o "encadeamento" de técnicas proposta por ARANHA Figura Algumas atividades realizadas no pré-processamento de textos Figura Identificação de palavras válidas Figura 2-4 Stemming para Português Figura Sequência do processo de indexação automática Figura 3-1 Tela principal do Fale Conosco Figura 3-2 Tela para registro da manifestação do Fale Conosco Figura 3-3 Exemplo de ruído na base de dados Figura Exemplos de texto original com caracteres inválidos Figura Exemplos de texto após etapa de pré-processamento Figura 3-6 Tela interativa do Text Miner Figura 3-7 Histograma de atributos por frequência Figura Agrupamento de Documentos Figura 4-1 Histograma com a distribuição Mensal das Ocorrências Figura 4-2 Percentual de manifestações por tipo Figura 4-3 Percentual de manifestações por origem Figura 4-4 Percentual de manifestações por gerência Figura 4-5 Distribuição dos agrupamentos Figura 4-6 Distribuição do Peso por frequência Figura 4-7 Distribuição da quantidade de documentos por frequência Figura 4-8 Histograma de Número de Documentos por frequência Figura 4-9 Links do Termo Credenciado Figura 4-10 Links do termo Descontar ix

10 LISTA DE TABELAS Tabela Representação atributo-valor obtida à partir da etapa de Pré-processamento Tabela Identificação e Remoção de Stopwords (os tokens descartados estão tachados) Tabela 3-1 Exemplos da Base de Dados Tabela 3-2 Exemplos de duplicação de Registro Tabela 3-3 Stoplist utilizado no estudo de caso Tabela 3-4 Estatísticas dos Termos Lematizados Tabela 3-5 Termo com maior quantidade de variantes Tabela 3-6 Variantes de Termos Tabela 3-7 Exemplos de agrupamentos para depuração da base Tabela 4-1 Distribuição Mensal das Ocorrências Tabela 4-2 Distribuição das Manifestações por Gerência Tabela 4-3 Resumo de execução Tabela 4-4 Exemplos dos termos com os índices Tabela 4-5 Agrupamentos Tabela 4-6 Manifestações relacionadas ao grupo Tabela 4-7 Manifestações relacionadas ao grupo x

11 LISTA DE SIGLAS E ABREVIATURAS AMS DCD DCT DW GED KDD Assistência Multidisciplinar de Saúde; Descoberta de Conhecimento em Dados; Descoberta de Conhecimento em Textos; Data Warehouse; Gerenciamento Eletrônico de documentos; Knowledge Discovery in Databases (Descoberta de Conhecimentos em Base de Dados); KDT Knowledge Discovery in Text (Descoberta de Conhecimentos em Textos); HTML OLAP PDF PLN SAS SRI SVD TXT HyperText Markup Language (Linguagem de Marcação de Hipertexto); On-line Analytical Processing; Portable Document Format; Processamento de Linguagem Natural; Statistical Analsys System; Sistema de Recuperação de Informações; Decomposição de Valor Singular; Arquivo de Texto. xi

12 1. Introdução Com o desenvolvimento das tecnologias de informação, tem existido um aumento das bases de dados em número, complexidade e rapidez de crescimento, o que leva à necessidade de recurso a análises automáticas de grandes quantidades de informação heterogênea estruturada (PETROVSKIY, 2003). Neste contexto surge a utilização de Data Mining, ou seja, a extração de conhecimento de dados, que tem como objetivo a descoberta de dependências escondidas nos dados (HAN e KAMBER, 2001). A mineração de dados ou Data Mining é definida, ultimamente, como um processo de descoberta de padrões em quantidades substanciais de dados, de forma automática ou, na maioria das vezes, semi-automática, para a extração de informação previamente desconhecida, válida que gera ações úteis, e onde que os padrões descobertos são significativamente vantajosos para a tomada de decisões estratégicas (CABENA et al., 1998). Essas características tem atraído uma boa parte das atenções da indústria da informação, pois a mineração dos dados é apresentada como um resultado da evolução natural da tecnologia da informação (HAN e KAMBER, 2001). Atualmente, os recursos computacionais promovem o acesso à informação de maneira rápida e eficiente, desde que esteja organizada em bancos de dados apropriados à manipulação por computadores. Grande parte da informação eletrônica encontra-se disponível em bases de dados frequentemente chamadas de não-estruturadas, ou seja, bases de documentos textuais, cujo formato está adequado ao homem que, através da leitura, é capaz de decodificar a informação contida no texto e apreendê-la. Por outro lado, a quantidade desses documentos produzidos não é passível de ser absorvida pelo homem por esse processo e, dessa maneira, a máquina desempenha um papel fundamental na gestão da informação. Para tal, é necessário o processamento 1

13 prévio do texto com a finalidade de decodificá-lo e ajustá-lo às estruturas reconhecidas pelos computadores. Este trabalho aplica técnicas de mineração de texto em uma base de dados de Serviço de Atendimento a usuários e prestadores de serviços do plano de assistência à saúde da Petrobras. Ele visa demonstrar a utilidade da Descoberta de Conhecimento em Textos que consistirá na criação de agrupamentos de textos a partir da coleção de documentos existentes Objetivo O objetivo principal deste trabalho é identificar e avaliar os agrupamentos extraídos através de um estudo de caso real, o atendimento aos usuários do plano de assistência à saúde da Petrobras, a partir da aplicação da metodologia de Descoberta de Conhecimento em Textos, visando subsidiar políticas e estratégias de atendimento. O estudo de caso extrairá conhecimento da base de dados de atendimento aos usuários do plano de assistência à saúde da Petrobras com a aplicação de técnicas de descoberta de conhecimento em textos, e identificará características das manifestações, e estabelecerá correspondência entre variáveis e definirá sua natureza. Visa ainda descrever o processo da organização, atendimento ao cliente, utilizando métodos que caracterizam a abordagem quantitativa. Tal estudo se faz necessário em função do potencial recurso de conhecimento explícito, a ser explorado, através das manifestações por escrito dos clientes que podem ser transformadas em fonte preciosa de informação estratégica. 2

14 1.2. Relevância O uso da tecnologia de informação vem, há alguns anos, sofrendo diversas mudanças, principalmente, no que se refere ao acesso, manipulação da informação e análise de dados. À medida que os recursos computacionais tornam-se mais confiáveis, o crescimento contínuo do volume de dados e a velocidade com que os dados são disseminados contribuem para que a sua administração não seja trivial, além disto, sendo pouco percebidos por humanos. Isto é, a quantidade de documentos produzidos não é passível de ser absorvida pelo homem, e dessa maneira, a máquina desempenhará um papel na gestão da informação. As implicações destas mudanças para o mundo dos negócios são enormes. Entretanto, é necessário o processamento prévio do texto com a finalidade de decodificá-lo e ajustá-lo às estruturas reconhecidas pelos computadores. A Descoberta de Conhecimento em Texto propõe soluções para tratar a informação eletrônica textual com o auxílio de máquinas, visando diminuir o impacto da sobrecarga de informação. É de interesse das organizações aplicarem algumas técnicas de extração de conhecimento na tentativa de se encontrar conhecimento nesta nova realidade. Portanto, a importância deste trabalho está baseada na análise eficiente e a aplicação de técnicas de text mining na busca de conhecimento escondido sejam eles relevantes e/ou inesperados Estado da Arte A mineração de Textos, também conhecida como Descoberta de Conhecimento em Textos, (Knowledge Discovery in Texts KDT) refere-se ao processo de descoberta de conhecimento interessante, com a utilização de métodos e 3

15 técnicas que permitem analisar grandes conjuntos de dados para a extração de informação previamente desconhecida, válida e que gera ações úteis, de grande ajuda para a tomada de decisões estratégicas. A mineração de textos surgiu a partir da necessidade de se descobrir, de forma automática, padrões e anomalias em textos. As principais contribuições desta área estão relacionadas à busca de informações específicas em documentos, para recuperar informações, extrair dados, resumir documentos, descobrir padrões, associações e regras e realizar a análise qualitativa e quantitativa de grandes volumes de textos, e a melhor compreensão de textos disponíveis em documentos Descoberta de conhecimento em Bases de Dados Com o advento da digitalização de documentos e o desenvolvimento das redes, o volume de informação aumenta além da capacidade humana de apreensão e, dessa forma, existe um lapso crescente entre a criação de dados e a compreensão deles (FRAWLEY et al., 1992). De acordo com WIVES (2002), descobrir conhecimento significa identificar, receber informações relevantes, e poder processá-las e agregá-las ao conhecimento prévio de seu usuário, mudando o estado de seu conhecimento atual, a fim de que determinada situação ou problema possa ser resolvido. Neste sentido, observa-se que o processo de descoberta de conhecimento está fortemente relacionado à forma pela qual a informação é processada. A área de Mineração de Dados, Data Mining, surgiu no final da década de oitenta, e focaliza a extração de conhecimento a partir de grandes volumes de dados usando o computador. Devido à sua natureza interdisciplinar, a pesquisa e desenvolvimento da área de Mineração de Dados têm estreitas relações com as 4

16 contribuições oferecidas por diversas áreas como Banco de Dados, Aprendizado de Máquina, Estatística, Recuperação de Informação, Computação Paralela e Distribuída. Os princípios associados à Descoberta de Conhecimentos em Base de Dados (KDD) conjugam fundamentos provenientes de diversas áreas, tais como a estatística, a inteligência artificial, a aprendizagem automática, as bases de dados, os sistemas de informação, entre outras. As aplicações disponíveis têm como objetivo a extração de conhecimento partir de grandes bases de dados (FAYYAD et al., 1996). O processo básico do KDD é traduzir a informação do seu nível mais elementar, o dado, geralmente armazenado em grandes volumes, em formas mais compactas, mais resumidas e mais úteis. Os métodos tradicionais de transformação de dados em informação situam-se na análise manual e na interpretação, porém, em contraste com a farta disponibilidade de base de dados, tornam-se lentos, caros e altamente subjetivos. Assim, o KDD é uma tentativa de lidar com um problema que, na era da informação digital, tornou-se real para todos nós: a sobrecarga de informação. FRAWLEY et al. (1992) afirma que a Descoberta de Conhecimento é a extração não-trivial da informação implícita, nos dados, previamente desconhecida e potencialmente útil. FAYYAD et al. (1997) complementa que o KDD é o processo de descoberta não-trivial de identificar, em dados, padrões válidos, novos, potencialmente úteis e, principalmente, compreensíveis em meio às observações presentes em uma base de dados. Dessas afirmações, entende-se que dado é um conjunto de fatos e padrão é a estrutura implícita que será encontrada. O termo processo envolve a preparação dos dados, a busca por padrões, a avaliação do conhecimento descoberto e os refinamentos necessários em repetidas iterações. Pelo termo não-trivial depreende-se que a busca ou inferência não seja uma operação direta de quantidades pré-definidas, como por exemplo, o cálculo de uma média. Além disso, que os padrões descobertos sejam 5

17 válidos em novos dados com algum grau de confiabilidade. Deseja-se, ainda, que a descoberta seja uma novidade que agregue alguma utilidade e benefício ao usuário e, por último, que seja compreensível, mesmo que necessite de pós-processamento (FAYYAD et al., 1997). Segundo BERRY e LINOFF (1997), o KDD é a análise e exploração automáticas ou semi-automáticas de grandes quantidades de dados com o objetivo de descobrir regras e padrões significativos. Para HAND et al. (2001), o KDD é a análise de bases de dados, frequentemente grandes, com o objetivo de achar relações insuspeitas e resumir os dados em novas maneiras que sejam compreensíveis e úteis ao usuário. Portanto, o objetivo do KDD é encontrar padrões interessantes ocultos em grandes quantidades de dados e fornecer informações como insumo para aquisição do conhecimento. Além disso, oferece fundamentalmente novas capacidades, isto é, a habilidade para otimizar a tomada de decisão utilizando métodos automáticos para compreender com ações passadas (BERRY, LINOFF, 1997). O KDD vem sendo utilizada há mais de uma década e estabeleceu-se como solução que auxilia as organizações e pesquisadores em geral na transformação de dados em informação da qual se adquire o conhecimento. Os dados são armazenados em estruturas de banco de dados bem definidas, ou seja, os dados encontram-se em formatos apropriados para serem explorados por softwares especialistas. Podemos concluir que o principal objetivo do KDD está relacionado à descoberta de co-relacionamentos e dados implícitos em registros de bancos de dados, através do estudo e desenvolvimento de processos de extração de conhecimento, isto é, 6

18 encontrar conhecimento a partir de um conjunto de dados para ser utilizado em algum processo decisório. Desta forma, é importante que o resultado do processo de KDD seja compreensível a humanos, além de útil e interessante para usuários finais do processo, que geralmente são tomadores de decisão. Os processos de KDD devem ser vistos como práticas para melhorar os resultados das explorações feitas utilizando ferramentas tradicionais de exploração de dados, como os Sistemas de Gerenciamento de Bancos de Dados (SGBD) (SILBERCHATZ et al., 2006). O desenvolvimento do KDD está intrinsecamente relacionado à evolução da tecnologia. O KDD vem sendo consolidado como um poderoso ferramental para auxiliar o homem na exploração da grande quantidade de informação disponível em formato eletrônico, dadas as limitações humanas no manuseio e interpretação dessa informação Processamento de Linguagem Natural - PLN O processamento de linguagem natural (PLN) é uma técnica chave para mineração de textos. Utilizando conhecimentos da área de lingüística, o PLN permite aproveitar ao máximo o conteúdo do texto, extraindo entidades, seus relacionamentos, detectando sinônimos, corrigindo palavras escritas de forma errada e ainda não ter ambiguidade. Participam normalmente na parte do pré-processamento dos dados, transformando-os em números. De acordo com MANNING e SCHUTZE (1999), o estudo da Linguística vem contribuir para resolver alguns problemas, pois busca caracterizar e explicar a diversidade de observações lingüísticas que nos cerca, seja em diálogos, seja na escrita, seja em qualquer outro meio. Uma parte preocupa-se com o lado cognitivo de como o 7

19 homem adquire, produz e entende a linguagem, outra parte, a compreensão da relação entre discurso linguístico e o mundo e, a terceira, com a compreensão de estruturas linguísticas pelas quais o homem se comunica. Paralelamente, o desenvolvimento da informática tem possibilitado grandes avanços no estudo das línguas naturais. A área que examina as relações entre a Linguística e a Informática é a Linguística Computacional que objetiva a construção de sistemas especialistas em reconhecer e produzir informação em linguagem natural. Encontram-se neste contexto os estudos de PLN que tem por objetivo a interpretação e geração de informação nos diferentes aspectos da língua: sons, palavras, sentenças e discurso nos níveis estruturais, de significado e de uso. O PLN já existe há décadas e, nesse ínterim, desenvolveram-se várias técnicas tipicamente linguística, isto é, as sentenças do texto são separadas em partes gramaticais (sujeito, verbo, etc) utilizando uma gramática formal ou um léxico, então a informação resultante é interpretada semanticamente e usada para extrair informação sobre o que foi escrito (KAO, POTEET, 2005). Não se propõe aqui uma discussão detalhada do PLN, seus métodos e suas técnicas e, sim a contextualização da relação entre o KDD e KDT. Atualmente, encontram-se procedimentos disponíveis capazes de realizar o tratamento do dado textual de maneira a possibilitar sua transformação e sua estruturação na forma adequada ao uso pelo KDD. Alguns desses procedimentos são ferramentas essenciais para viabilizar a Descoberta de Conhecimento em Textos KDT. O PLN tem papel fundamental na Mineração de Textos, sendo utilizado no estágio inicial da etapa de Pré-processamento, aonde sua principal função é fornecer um 8

20 primeiro nível de estruturação da informação textual, como o reconhecimento de início e fim de sentenças e classificação de palavras quanto a sua função sintática Descoberta de Conhecimento em Textos De acordo com DORRE et al (1999), a informação textual não está prontamente acessível para ser usada por computadores, ou seja, ela é apropriada para que pessoas, através da leitura e dos processos cognitivos característicos dos humanos, manipulem e apreendam as informações contidas nesse formato. Análise de dados armazenados em formato não estruturado pode ser considerada uma atividade mais complexa, se comparada à análise de dados estruturados, justamente pelo fato dos dados possuírem a característica da não estruturação. Logo, são necessárias técnicas e ferramentas específicas para tratamento deste tipo de dados. Este conjunto de técnicas e ferramentas também fazem parte da área de Recuperação de Informações, mais especificamente da área conhecida como Descoberta de Conhecimento em Textos (KDT) (PALAZZO et al, 2006). Segundo TAN (1999), a KDT pode ser vista como uma extensão do KDD, pois se refere ao processo de extração de padrões não-triviais e de conhecimento útil para determinado objetivo em documentos não-estruturados. Todavia, a tarefa da KDT torna-se mais complexa em função da manipulação de dados textuais registrados em linguagem natural. Diversos autores afirmam que as bases textuais apresentam-se de forma nãoestruturada. Porém, possuem uma estrutura implícita que necessita de técnicas especializadas para ser reconhecida por sistemas automatizados. O processamento de linguagem natural (PLN) trata exatamente da descoberta destas estruturas implícitas, como por exemplo, a estrutura sintática (RAJMAN, BESANÇON, 1997). 9

21 A integração de técnicas de PLN e KDD constitui a Descoberta de Conhecimento em Texto que objetiva automatizar o processo de transformação de dados textuais em informação para possibilitar a aquisição do conhecimento. Mineração de textos (Text Mining) ou Descoberta de conhecimento de base de dados textuais (KDT) é um Processo de Descoberta de Conhecimento, que utiliza técnicas de análise e extração de dados a partir de textos, frases ou apenas palavras. Envolve a aplicação de algoritmos computacionais que processam textos e identificam informações úteis e implícitas, que normalmente não poderiam ser recuperadas utilizando métodos tradicionais de consulta, pois a informação contida nestes textos não pode ser obtida de forma direta, uma vez que, em geral, estão armazenadas em formato não estruturado 1, o qual apresenta um alto nível de complexidade envolvida neste tipo de representação de informação. Mineração de textos consiste em extrair regularidades, padrões ou tendências de grandes volumes de textos em linguagem natural, normalmente, para objetivos específicos. Inspirado pelo data mining ou mineração de dados, que procura descobrir padrões emergentes de banco de dados estruturados, a mineração de textos pretende extrair conhecimentos úteis de dados não estruturados o semi-estruturados (ARANHA, 2006). De acordo com BASTOS (2006), KDT engloba técnicas e ferramentas inteligentes e automáticas que auxiliam na análise de grandes volumes de dados com o intuito de garimpar conhecimento útil, beneficiando não somente usuários de documentos eletrônicos da internet, mas qualquer domínio que utiliza textos não estruturados. 1 Formato não estruturado está relacionado ao fato de um texto ser livre de formato ou padrão de armazenamento. 10

22 Logo, como a forma mais comum de armazenamento de informação é através de texto, KDT, teoricamente, tem potencial maior de utilização do KDD, pois cerca de 80% de informações contidas nas organizações estão contidas em documentos textuais (BEPPLER, 2005). Porém, mineração de texto é um processo muito mais complexo à medida que envolve procedimentos com dados textuais que estão em linguagem natural, não estruturados e confusos. Os benefícios da mineração de textos pode se estender a qualquer domínio que utilize textos, sendo que suas principais contribuições estão relacionadas à busca de informações específicas em documentos, a análise qualitativa e quantitativa de grandes volumes de textos, e a melhor compreensão do conteúdo disponível em documentos textuais. Ao utilizar os recursos de mineração de textos, um usuário não solicita exatamente uma busca, mas sim uma análise de um documento. Entretanto, este não recupera o conhecimento em si. É importante que o resultado da consulta seja analisado e contextualizado para posterior descoberta de conhecimento Organização da dissertação Neste capítulo foi apresentado o contexto geral do trabalho, a relevância para o desenvolvimento da pesquisa de uma metodologia de descoberta de conhecimento em dados disponíveis em texto, bem como os seus objetivos pretendidos. O capítulo 2 trata da metodologia proposta e define as etapas necessárias para desenvolver o processo de descoberta de conhecimento em textos, bem como a sua importância, benefícios, dificuldades e uso. 11

23 No capítulo 3, é apresentado o estudo de caso, com a descrição do problema, as etapas do processo de descoberta de conhecimento em textos utilizada para o caso real e a ferramenta utilizada para a mineração dos textos. No capítulo 4 um conjunto de dados foi processado, o que permitiu a análise dos resultados obtidos. E o capítulo 5, descreve as considerações finais. 12

24 2. Metodologia 2.1 O processo de Mineração de Textos O processo de mineração de textos é iterativo, pois é formado por uma série de etapas seqüenciais, onde se pode retornar às descobertas realizadas, ou a falta delas pode levar a novas hipóteses de descobertas. E o processo torna-se interativo, pois neste caso, o usuário pode decidir pela retomada de processos de mineração ou a uma nova seleção de atributos, por exemplo, para validar hipóteses que surgiram durante o processo. As pessoas envolvidas na realização do processo de mineração de textos devem possuir um canal de comunicação que viabilize uma boa troca de informações. Estes usuários possuem diferentes especialidades e necessidades, e cada um possui o seu papel dentro do processo. As classes dos usuários envolvidos no processo são: Especialista do Domínio: possui amplo entendimento do domínio da aplicação. Por exemplo, durante a análise de uma coleção de dados sobre vendas de uma empresa, o especialista pode ser um diretor de marketing. Analista: executa o processo de KDT e, portanto deve possuir amplo conhecimento das etapas que compõem esse processo. Por exemplo, os analistas de sistemas, estatísticos e administradores de base de dados. Usuário Final: o qual pode não possuir amplo conhecimento do domínio. É frequentemente aquele que utiliza o conhecimento extraído no processo de KDT para auxiliá-lo em um processo de tomada de decisão. 13

25 Durante a realização do processo de KDT, a interação e comunicação entre o analista, especialista do domínio e usuário final é muito importante, uma vez que o sucesso da extração de conhecimento depende da comunicação entre eles. Entretanto, é possível melhorar a troca de informações entre os envolvidos no processo utilizando-se técnicas de visualização de dados adequadas para auxiliar na execução das etapas do processo. Para o processo de mineração de textos devemos considerar os tipos de abordagens de dados que será utilizada Tipos de Abordagens de Dados De acordo com EBECKEN (2003), existem dois tipos de abordagens para análise de dados textuais na área de mineração de textos: a Análise Semântica, baseada na funcionalidade dos termos encontrados nos textos, e a Análise Estatística, baseada na freqüência dos termos encontrados nos textos. Estas abordagens podem ser utilizadas separadamente ou em conjunto. Análise Semântica Este tipo de análise emprega técnicas que avaliam a sequência dos termos no contexto dos textos, no sentido de identificar qual a sua função. Ela é fundamentada em técnicas de Processamento de Linguagem Natural (PLN). Sua utilização justifica-se principalmente pela melhoria da qualidade dos resultados do processo de mineração de textos, especialmente se for incrementado por Processamento Lingüístico (ROSA, 1998). 14

26 A análise semântica apóia o tratamento de textos conforme o ser humano faz, através do significado das palavras, de conhecimentos morfológicos, sintáticos, semânticos, pragmáticos, do discurso e do mundo. 1. Conhecimento Morfológico É o conhecimento da estrutura, da forma e das inflexões das palavras. 2. Conhecimento Sintático É o conhecimento estrutural das listas de palavras e como elas podem ser combinadas para produzir sentenças. 3. Conhecimento Semântico É o conhecimento do significado das palavras independente do contexto. Também designa outros significados mais complexos, podem ser obtidos pela combinação destas palavras. 4. Conhecimento pragmático É o conhecimento do uso da língua em diferentes contextos e como estes afetam seu significado e a interpretação. 5. Conhecimento do Discurso É o conhecimento de como as sentenças imediatamente precedentes afetam a interpretação da próxima sentença. 6. Conhecimento do Mundo É o conhecimento geral do domínio ou o mundo que a comunicação da linguagem natural se relaciona. 15

27 Segundo CORDEIRO (2005), técnicas de análise semântica de textos procuram identificar a importância das palavras dentro da estrutura de suas orações. Porém, quando se utiliza um único texto algumas funções podem ser identificadas com um grau de importância. Entretanto, para algumas tarefas isso não é suficiente. Como exemplos podem ser citadas as categorizações, onde é interessante analisar um documento comparando-o com bases de conhecimento de diferentes assuntos para descobrir a que categoria ele pertence. Análise Estatística Os termos são valorados, basicamente, pela sua frequência de aparição na massa de dados, não importando a contextualização deste, como em que parágrafo está inserindo, que termos o antecedem ou que estão diretamente relacionados. Neste tipo de análise, a importância de um termo é dada pelo número de vezes que este aparece no texto. Basicamente, seu processo envolve aprendizado estatístico a partir de dados, que normalmente inclui as etapas de codificação dos dados, estimativa dos dados e modelos de representação de documentos. 1. Codificação dos Dados Uma codificação inicial dos dados é escolhida com base em indicações de especialistas. Também pode ser feita de acordo com critérios que representem propriedades interessantes dos dados em relação aos objetivos da seleção dos mesmos. Se informações relevantes forem descartadas nesta etapa, não poderão ser recuperadas depois. Entretanto, se a codificação inicial dos dados contém muita informação irrelevante ou ruídos, a busca por uma seleção adequada 16

28 pode se tornar difícil ou consumir muito tempo. Além disso, propriedades importantes destes dados podem ser perdidas em meio ao ruído. 2. Estimativa dos Dados Esta etapa envolve a procura por um modelo adequado a partir de um conjunto de modelos (espaço de modelos). Um modelo pode ser obtido a partir da aplicação de um algoritmo de aprendizado ou de um método de estimativa. 3. Modelos de Representação de Documentos Documentos podem ser vistos como containers de palavras. Esta abordagem, também conhecida como bag of words, ignora a ordem que as palavras aparecem nos textos, assim como qualquer informação de pontuação ou de estrutura, mas retém o número de vezes que a palavra aparece. Esta técnica é considerada uma simplificação de toda a abundância de informações que um texto pode expressar, não fornecendo, portanto, uma descrição fiel de seu conteúdo. O desenvolvimento de modelos mais ricos, que sejam computacionalmente viáveis e possíveis de serem estimados, continua sendo um problema desafiador para a computação. Entretanto, apesar desta técnica não ser suficiente para interpretação completa a respeito dos textos, ela provê uma quantidade considerável de informações sobre associações entre palavras e documentos que tem se apresentado suficiente para clustering a partir de grandes coleções de textos. Ambas as abordagens podem ser utilizadas sozinhas ou em conjunto. 17

29 O processo de Mineração de Textos ou Descoberta de Conhecimentos em Textos como um todo, se constitui como mostra o diagrama a seguir, conforme proposto por ARANHA (2006), onde sugere o que seria um modelo completo para aquisição de conhecimento a partir de textos, porém com aprofundamento na sub-etapa de Préprocessamento. Figura Metodologia de Mineração de Textos com o "encadeamento" de técnicas proposta por ARANHA. A coleta é a etapa inicial e tem como função recuperar os documentos que possam ser relevantes para alcançar o objetivo almejado, isto é, determinar e selecionar o universo de atuação das técnicas de mineração de texto. Pré-processamento é a etapa executada imediatamente após a Coleta e tem como objetivo prover alguma formatação e representação da massa textual. É bastante onerosa, com a aplicação de diversos algoritmos que consomem boa parte do tempo do processo de extração de conhecimento. Indexação é o processo que organiza todos os termos adquiridos a partir de fontes de dados, facilitando o seu acesso e recuperação. Uma boa estrutura de índices garante rapidez e agilidade ao processo, tal como funciona o índice de um livro. 18

30 Após terem sido obtidas uma estrutura para os dados e uma forma de prover rápido acesso, a etapa de Mineração propriamente dita é responsável pelo desenvolvimento de cálculos, inferências e algoritmos e que tem como objetivo a extração de conhecimento, descoberta de padrões e comportamentos que possam surpreender de acordo com o objetivo e requisitos do usuário e/ou domínio da aplicação. Finalmente, a Análise é a última etapa é deve ser executada por pessoas (usuário final, especialista do domínio e o analista de dados) que, normalmente, estão interessadas no conhecimento extraído e que devem tornar algum tipo de decisão apoiada no processo de Mineração de Texto. Mediante algumas circunstâncias, como na obtenção de um resultado pouco significativo ao usuário, pode ser necessário que o processo seja refeito, adequando-se algumas de suas etapas, seja para contar com uma gama mais informativa de documentos, ou mesmo com alguma estratégia que possa melhorar o desempenho do processo. A seguir, são mencionados detalhes específicos de cada uma das etapas envolvidas no processo de mineração de texto, dando mais ênfase à etapa de préprocessamento Coleta de Dados Entende-se por Coleta o processo de busca e recuperação de dados com descrições textuais que sejam relevantes ao domínio de aplicação do conhecimento a ser extraído. E este tem como finalidade formar a base textual da qual se pretende extrair algum tipo de conhecimento. Essa base pode ser estática, nos casos mais simples, ou dinâmica, isto é, atualizadas a todo momento através de robôs coletando novas 19

31 informações. A atualização é feita pela simples adição de um novo conteúdo, remoção de conteúdos antigos, ou, substituição da base por uma inteiramente nova. Coletar dados é uma tarefa bastante custosa aonde existem diversos desafios, a começar pelo formato dos dados, é que podem não estar disponíveis em um formato apropriado para serem utilizados no processo de mineração de textos. Para mineração de textos, um dos principais problemas em coletar os dados é descobrir da localização das fontes de dados: pastas de arquivos encontradas no disco rígido de usuários, tabelas de diversos bancos de dados e a Internet. As pastas de arquivos são talvez a forma mais natural de se armazenar documentos na forma digital. Coletar documentos no disco rígido de um computador é algo que exige bastante cautela, pois é necessário fazer a distinção entre arquivos textuais produzidos por pessoais e arquivos binários e de configuração, normalmente interpretados apenas pela máquina. Algumas iniciativas podem ajudar no gerenciamento de documentos eletrônicos, como é o caso dos sistemas de GED (Gerenciamento Eletrônico de documentos) para grandes empresas e dos sistemas de busca local como o Google Desktop, Yahoo! Desktop e Ask Jeeves Desktop. A obtenção de massa textual a partir de tabelas de banco de dados se dá, principalmente, através de conteúdo de colunas do tipo string, que nada mais são do que campos de armazenamento de texto livre, sem nenhuma restrição a não ser a quantidade máxima de caracteres suportada por registro. Como os dados podem estar espalhados por diversas tabelas de diversos bancos de dados, a construção de um Data Warehouse, INMON (1994) e KIMBALL (2002), é vista como um ótimo ponto de partida para a obtenção de dados, uma vez que a teoria de DW prega a integração de diversas fontes, de forma a disponibilizar mais facilmente as informações. Embora os Data Warehouses 20

32 facilitem bastante a coleta de dados, o problema ainda está longe de ser bem resolvido, principalmente quando se trata de textos. Além disso, neste tipo de sistema supõe-se que seja realizada uma etapa de pré-processamento, aonde um dos objetivos é prover uma limpeza dos dados, garantindo qualidade no que se está disponibilizando. Outro ambiente de localização de fontes de dados é a Internet. Neste, a heterogeneidade é o desafio predominante, aonde é encontrada uma infinidade de tipos de páginas, como notícias de revistas, bloggers, anúncios, documentos, artigos técnicos e planilhas. Fazendo uso de alguma ferramenta de suporte à recuperação de documentos, a primeira etapa do processo de Mineração de Textos pode ser então cumprida. Diante disso, deve-se dar início a segunda etapa do processo, na qual os documentos recuperados são pré-processados para gerar a possível representação a ser utilizada pelos algoritmos de extração de conhecimento Pré-processamento Como mencionado, a etapa de pré-processamento é responsável por um conjunto de transformações realizadas sobre coleção de textos com o objetivo e fazer com que esses passem a ser estruturados em uma representação atributo-valor, que possa ser manipulada pelos métodos de extração de conhecimento. A obtenção de tal representação pode ser feita através da realização de algumas tarefas como identificação dos atributos, atribuição de pesos e redução da representação, como mostrado na figura

33 Figura Algumas atividades realizadas no pré-processamento de textos Pré-processar textos é, por muitas vezes, o processo mais oneroso da metodologia de Mineração de Textos, uma vez que não existe uma única técnica que possa ser aplicada para a obtenção de uma representação satisfatória em todos os domínios. Assim sendo, para se chegar à representação adequada, pode ser necessária a realização de muitos experimentos empíricos. De modo geral, a etapa de pré-processamento tem por finalidade melhorar a qualidade inicial dos dados já disponíveis e organizá-los, aonde diversas técnicas podem ser aplicadas e até mesmo combinadas. Existem diferentes abordagens para determinar os termos e os pesos que estarão presentes na representação. Frequentemente as operações realizadas para a escolha dos termos são: substituição de marcadores HTML por símbolos especiais, quando aplicável; reconhecimento de palavras individuais ou compostas que estejam presentes no texto; uso de uma lista de palavras a serem desconsideradas, como artigos, preposições, etc. Essa lista é conhecida como stop list ou lista de sotpwords; 22

34 remoção do sufixo das palavras para mapeá-la na sua forma canônica; organização do valor semântico das palavras por meio do uso de dicionários eletrônicos e mapas de sinônimos, como thesaurus. As estratégias empregadas na identificação dos atributos, como mostrado na figura 2-2 são, em geral, dependentes do idioma. Isso porque as palavras que compõem a stop list e os métodos para remover os sufixos dos termos podem variar de acordo com o idioma dos textos. Para completar a representação dos textos, além das estratégias para identificação dos atributos, devem-se escolher quais serão as abordagens utilizadas para o cálculo do valor do peso de cada atributo, que geralmente pode ser booleano ou numérico (WEISS, INDURKHYA, 1998). Os valores booleanos são empregados para indicar a presença ou ausência do termo em cada documento, enquanto que os numéricos são calculados por meio de medidas estatísticas baseadas na frequência dos termos nos documentos. Em alguns casos, a representação originalmente obtida possui muitos atributos tornando sua dimensão relativamente grande a ponto de exceder a capacidade de processamento dos algoritmos usados para extração do conhecimento. Desta forma, são empregados métodos para redução da dimensão. No entanto, a etapa de pré-processamento vai além das ações citadas, pois é necessário transformar os textos em uma representação estruturada adequada para que, a partir disso, os dados possam ser submetidos ao processo como um todo. Portanto, durante a transformação dos textos em formato estruturado existe a possibilidade de que informação intrínseca ao conteúdo dos textos seja perdida. Um desafio, nesse caso, é obter uma boa representação minimizando a perda de informação. 23

35 Normalmente, o produto final do pré-processamento é uma estrutura do tipo atributo-valor, conforme verificado na Tabela 2-1. As linhas fazem alusão a cada um dos documentos da coleção, enquanto que as colunas fazem referência aos atributos, presentes ou não, em cada um dos documentos. A interseção entre atributos e documentos é marcada pelo peso dado a determinado atributo em determinado documento (por exemplo, pode-se utilizar a frequência de aparição do atributo no documento). Esta estrutura precisa ser significante, representativa e que reflita fielmente a diversidade original dos dados. De posse desta estrutura, é possível a execução da etapa de Mineração, precedida ou não da Indexação. Tabela Representação atributo-valor obtida à partir da etapa de Pré-processamento Atrib1... AtribN Doc1 V11... V1N DocX VX1... VXN Identificação de Palavras no Texto Erros ortográficos são comuns quando se trabalha com grandes massas de dados, especialmente se geradas a partir de digitação manual por seres humanos. Em SALTON (1983), a identificação das palavras nos documentos a serem indexados nada mais é do que a identificação de palavras analisando-se as sequências de caracteres no texto. SALTON (1983) aconselha fazer um Dictionary lookup, ou seja, comparar as sequências de caracteres retiradas do texto com um dicionário a fim de validar se essas palavras realmente existem. Esse processo de validação torna-se caracteres inválidos ou palavras com erros gramaticais. As sequências de caracteres inválidas devem ser eliminadas e as palavras com erros corrigidas. Pode-se aplicar um processo de filtragem 24

36 naqueles arquivos que possuem formatos de texto específicos, a fim de eliminar as sequências de controle e/ou formatação de texto. As operações que transformam uma sequência de caracteres em outra pode ser de: inserção (inserção de um novo caractere no string destino ), eliminação (eliminação de um caractere no string origem ) e substituição (substitui um caractere do string origem, com o objetivo de transformar no string destino ). O exemplo abaixo exibe os passos necessários para transformar casas em massa, definindo a distância de edição em 3 (três). 1. casas masas (substituição de c por m ) 2. masas mass (eliminação de a ) 3. mass massa (inserção de a ) O dicionário pode também auxiliar a identificação de termos específicos, quando se deseja utilizar palavras pré-definidas no índice, evitando que palavras desconhecidas sejam identificadas (ou seja, evita a utilização de um vocabulário descontrolado). Um simples Analisador Léxico que identifique sequências de caracteres e forme palavras pode ser utilizado. A figura 2-3 apresenta o trecho de um documento com diversas sequências de caracteres. As sequências riscadas são sequências inválidas, que não devem passar pela fase de identificação de palavras. As demais sequências vão para a verificação em um dicionário (léxico). As palavras sublinhadas são palavras inexistentes no dicionário, e devem ser corrigidos ou aprendidos. Os caracteres de pontuação são desprezados. 25

37 ... àpl- à, ~ p y Na maioria das vezes os documentos retornados pelas ferramentas de > recuperação de informacões < envolvem um contexto mais amplo, fazendo com que o usuario tenha que garimpar, ou seja, especificar ou filtrar estes documentos ( o que demanda tempo e conhecimento ) a fim de obter a infromação que ele realmente necessita ~... Figura Identificação de palavras válidas Outra possibilidade de pré-tratamento é a representação em n-gramas do texto: constitui-se em uma representação alternativa, onde os termos são obtidos diretamente como sub-cadeias de comprimento n das palavras que compõem o texto original. Por exemplo, a partir da palavra porta e considerando n = 4, obtêm-se as seguintes 4- grams: _por, port, orta e orta_, onde _ é usado para indicar o início ou fim da palavra. A idéia é que os erros ortográficos mais comuns só afetam poucos constituintes de n-grama, então, podemos buscar pela palavra correta através daqueles que compartilham a maior parte dos n-gramas com a palavra errada. O objetivo é manter uma lista de n-gramas apontando para as palavras que o contém. Quando a palavra é procurada, os n-gramas são processados e procurados no índice. A palavra que apresentar o maior número de n-gramas associados será a de maior relevância, indicando um possível candidato para correção (ARANHA, 2006). De modo geral, a preocupação das técnicas clássicas presente na literatura é de reduzir a dimensionalidade do problema, de modo a poder utilizar algoritmos de mineração de dados. 26

38 Tokenização Um texto possui um fluxo ordenado de palavras que seguem as normas linguísticas de um idioma para que ele faça sentido para o leitor. No entanto, para o propósito de manipular o texto com computadores no sentido de extrair suas características, o processo utilizado é de separação do texto em unidades mínimas de texto chamadas tokens. Cada unidade é chamada de token e que, na grande maioria das vezes, corresponde a uma palavra do texto, podendo também estar relacionado a mais de uma palavra, símbolo ou caractere de pontuação. Segundo MANNING e SCHULTZ (1999), esses tokens apresentam-se como palavras, números ou sinais de pontuação extraídos do texto. Importante observar que os sinais de pontuação podem trazer informação sobre a macro estrutura do texto e por isso não devem ser negligenciados. Geralmente, o que diferencia um token do outro são os espaços entre eles e frequentemente os algoritmos que executam a divisão do texto em tokens utilizam o espaço como delimitador. Aqui, também, se requer cuidado na execução da tarefa, pois temos, em português, palavras compostas que quando separadas possuem significados diferentes, por exemplo, Casas Bahia representa uma conhecida rede de lojas, contudo, se lida isoladamente, a palavra casas ou Bahia não possuem relação alguma com comércio. Para obtenção de melhores resultados, deve-se adequar o programa que executa o trabalho de separação dos termos em função do texto que será tratado, caso contrário, muito trabalho deverá ser executado nos tokens adquiridos. 27

39 Retirada de palavras desnecessárias (stopwords) Em um documento, existem muitos tokens que não possuem nenhum valor semântico, sendo úteis apenas para o entendimento e compreensão geral do texto. Estes tokens são palavras classificadas como stopwords e correspondem ao que é chamado de stoplist de um sistema de Mineração de Textos. Uma lista de stopwords é constituída pelas palavras de maior aparição em massa textual e, normalmente, correspondem aos artigos, preposições, pontuação, conjunções e pronomes de uma língua. A identificação e remoção desta classe de palavras reduzem de forma considerável o tamanho final do léxico, tendo como consequência benéfica o aumento de desempenho do sistema como um todo. A stoplist pode ser definida manualmente, por um especialista no domínio do assunto, ou de forma automática, através de frequência de aparição das palavras no léxico. Um percentual K das palavras de maior aparição define a lista de remoções. A tabela 2-2 ilustra uma pequena stoplist. Tabela Identificação e Remoção de Stopwords (os tokens descartados estão tachados) Stoplist Texto na pelas com ou das de que seja os um o estes...na maioria das vezes os documentos retornados pelas ferramentas de recuperação de informações envolvem um contexto mais amplo, fazendo com que o usuário tenha que garimpar, ou seja, especificar ou filtrar estes documentos o que demanda tempo e conhecimento a fim de obter a informação que ele realmente necessita... e a ele 28

40 No entanto, stopwords são todas as palavras que influenciam negativamente no processo de análise. Assim, a sua existência nos textos implicaria na perda de desempenho e qualidade nas etapas seguintes da tarefa de mineração de textos, por isso é necessária a execução deste processo antes das próximas etapas Normalização Morfológica (Stemming) Segundo WIVES (2002), durante o processo de indexação, dependendo do caso, torna-se interessante eliminar as variações morfológicas de uma palavra. As variações morfológicas são eliminadas através da identificação do radical de uma palavra. Os prefixos e os sufixos são retirados e os radicais resultantes são adicionados ao índice. Essa técnica de identificação de radicais é denominada lematização ou Stemming, que em inglês significa reduzir uma palavra ao seu radical (ou raiz). Além da eliminação dos prefixos e sufixos, características de gênero, número e grau das palavras são eliminadas. Isso significa que várias palavras acabam sendo reduzidas para um único termo, o que pode reduzir o tamanho de um índice em até 50%. Entretanto, as aplicações de técnicas de Stemming ocasionam uma diminuição na precisão das buscas, já que não consegue mais procurar por uma palavra específica. Na classificação de documentos, por exemplo, variações morfológicas são importantes, pois aumentam o poder de discriminação entre documentos. Além disso, ao realizar stemming deve-se ter cuidado com overstemming e understemming. Overstemming ocorre quando a cadeia de caracteres extraída não é um sufixo, mas sim parte do radical. Por exemplo, a palavra gramática, após o processamento reduz para grama, o que não representa o seu radical, que é gramat. Understemming ocorre quando o sufixo não é removido totalmente. Por exemplo, a 29

41 palavra referência, após o processamento reduz para referênc, ao invés de refer, o que é o radical correto (BASTOS, 2006). EBECKEN (2003) descreve três métodos de stemming: método do Stemmer S; método de Porter; método de Lovins. método do stemmer S Este é considerado o método mais simples. Consiste na eliminação de apenas alguns finais de palavras, geralmente sufixos que formam o plural. Em palavras da língua inglesa são removidos apenas os sufixos ies, es, s. Método de Porter Consiste na identificação de diferentes inflexões referentes à mesma palavra e sua substituição por um radical comum. Seu algoritmo remove cerca de 60 sufixos diferentes para palavras da língua inglesa e é baseado nas seguintes etapas (BASTOS, 2006): redução do plural; troca de sufixos; retirada de sufixos; remoção de sufixo padrões; remoção da vogal e ao final da palavra. Método de Lovins Este método remove cerca de 250 sufixos diferentes para palavras da língua inglesa. Seu algoritmo remove apenas um sufixo por palavra, retirando o sufixo mais longo conectado a palavra. Todos os métodos acima consideram palavras da língua inglesa. Um algoritmo de stemming para língua portuguesa pode ser encontrado em ORENGO (2001). Cada etapa do algoritmo, por sua vez, tem um conjunto de regras, que são examinadas em sequência, e somente uma regra na etapa pode ser aplicada. 30

42 Figura 2-4 Stemming para Português As etapas são descritas a seguir (BASTOS, 2006) : 1. Remoção do plural Consiste basicamente em remover o s do final das palavras. Há uma lista de exceções como a palavra lápis por exemplo. 2. Remoção do feminino Nesta etapa as formas femininas são transformadas na correspondente masculina. Ex.: chinesa chinês. 3. Remoção do advérbio Esta é a etapa mais simples, uma vez que o único sufixo que denota um advérbio é mente. Neste caso também há uma lista de exceções. 31

43 4. Remoção do aumentativo e diminutivo Remove o sufixo dos substantivos e adjetivos que podem ter aumentativo e diminutivo. Por exemplo, gatinha ou menininha. 5. Remoção de sufixos em nomes Esta etapa testa as palavras contra uma lista de 61 sufixos para substantivos e adjetivos. Se o sufixo for removido, as etapas 6 e 7 não são executadas. 6. Remoção de sufixos em verbos Os verbos da língua portuguesa possuem mais de 50 formas diferentes de conjugação (na língua inglesa existem apenas 4). Cada uma delas possui seu conjunto de sufixos específicos. Os verbos podem variar de acordo com o tempo, a pessoa, o número e o modo. A estrutura das formas verbais pode ser representada por: radical + vogal temática 2 + tempo + pessoa, por exemplo: andaram = and + a + ra + m. As formas verbais são reduzidas ao seu radical correspondente. 7. Remoção de vogais Esta etapa consiste em remover a última vogal ( a, e ou o ) das palavras que não foram examinadas pelas etapas 5 e 6. Ex.: menino menin. 8. Remoção de acentos Esta atividade é necessária porque existem vários casos onde algumas variantes são acentuadas e outras não, como em psicólogo e psicologia, por exemplo. 2 Existem três classes de verbos na língua portuguesa, de acordo com a terminação da forma infinitiva: ar, er e ir. A vogal temática é a letra ( a, e e i ) que agrupa verbos e categorias. 32

44 A execução deste passo por último é importante, porque a presença de acentos é significativa em algumas regras, por exemplo: óis para ol transformando sóis em sol, por exemplo. Se a regra fosse ois para ol, poderia causar erros no caso de dois para dol Dicionários de dados (Thesaurus) Objetivando o tratamento adequado de alguns problemas intrínsecos da língua são criados dicionários de apoio, tesauros, lista de termos não relevantes ou específicos do jargão técnico para dar suporte ao trabalho de processamento do dado textual. Esse passo é dependente do objetivo do projeto que pode fazer uso de todos os elementos de apoio ou somente de alguns de acordo com a necessidade. No momento em que se transforma o texto em termos individuais ou compostos observa-se que alguns aparecem muitas vezes, outros medianamente e outros raramente. A utilização de alguns termos em detrimento de outros é uma escolha feita pelos especialistas que conduzem o processo de descoberta e, para tanto, são criados dicionários especializados e lista de termos que apóiam o trabalho de escolha dos termos que serão utilizados pelos algoritmos de mineração de texto. Uma preocupação natural seria unificar todas as palavras que possuem o mesmo significado. Então, cria-se um dicionário de sinônimos ou um tesauros que converte os termos sinônimos em um termo preferido. Esse tipo de tratamento é importante para redução da quantidade de termos nos documentos, isto é, para n termos sinônimos, a máquina os trata como termos não correlacionados e, para fins de estatísticas, são computadas individualmente para cada termo, o que não é interessante para a captura do conceito do documento. Convertido os n termos sinônimos para o 33

45 preferido, a análise será feita em apenas um termo que pode ampliar a sua relevância no documento. Outra utilização destes dicionários de apoio seria a correção de erros ortográficos corriqueiros. O procedimento é análogo ao dicionário de sinônimos que, neste caso, cadastram-se os prováveis erros ortográficos mais comuns. Ex. iorgute iogurte. A datação do texto deve ser verificada para que não seja modificado o seu conteúdo sem as devidas considerações. A escrita de determinada época não deveria sofrer correções automáticas, pois seriam descaracterizadas. Ex. Pharmácia Farmácia. De maneira similar, podem-se identificar abreviaturas que estão fora do padrão para serem corrigidas. Além disso, as palavras compostas não devem ser separadas ou convertidas para um sinônimo de um de seus termos, pois podem mudar de sentido. Por exemplo, foi criado um dicionário de sinônimos que contém a relação dos termos Casa e Morada, de forma que a ocorrência do termo Morada seria convertida para o termo Casa. Não seria apropriado converter o primeiro termo da palavra composta Casa Civil, pois descaracterizaria o sentido. Uma solução para reconhecer esses termos automaticamente seria o cadastramento das formas compostas para sua correta identificação. Em determinados projetos pode ser útil a identificação de Entidades que relacionam termos com categorias. O objetivo dessa tarefa é distinguir termos que contém informações bastante relevantes para o processo de descoberta. 34

46 Imaginemos um corpus 3 contendo informações cadastrais de usuários de determinado serviço ou clientes de uma empresa. Seria de grande valia identificar no texto o nome, o endereço, o telefone, a empresa na qual trabalha e assim por diante. Dessa forma, cria-se um dicionário de apoio contendo prováveis formatos em que são apresentadas essas Entidades. Frequentemente, essa tarefa é realizada por analistas de domínio que detém conhecimento a priori das categorias que deverão ser identificadas Indexação Os sistemas de Recuperação de Informação, cedo ou tarde, esbarram no problema de representação de documentos e consultas de usuários. Um documento precisa ser codificado de uma forma que facilite sua manipulação e que permita uma correta mensuração de seus termos. Segundo, EBECKEN (2003), o objetivo principal da indexação dos textos é facilitar a identificação de similaridade de significado entre suas palavras, considerando as variações morfológicas e problemas de sinonímia. Nessa fase as características dos documentos são identificadas e adicionadas ao sistema de recuperação de informações (SRI). Este processo tem como resultado a geração de um índice. Esse índice é construído através de um processo de indexação. Indexar, portanto, significa identificar as características de um documento e colocá-las em uma estrutura denominada índice. Um documento pode ser indexado por termos diferentes que são 3 Corpus é uma coleção de documentos. 35

47 correspondentes ao vocabulário utilizado em sua área. Nesse caso, geralmente, há um conjunto de termos predefinidos e específicos para cada assunto da área em questão. Essa técnica facilita muito a localização de informações, pois usuários de determinadas áreas específicas estão acostumados a utilizar os termos comuns. Por outro lado, se o SRI for utilizado em uma área diferente da área para a qual foi indexado ele não será tão eficiente porque os problemas relacionados à diferença de vocabulário serão mais frequentes. Quando a indexação é realizada manualmente, a pessoa encarregada de fazê-la deve analisar o conteúdo de cada documento e identificar palavras-chave que o caracterizem. Essas palavras, quando adicionadas ao índice, passam a ser chamadas de termos de índice. A geração automática de índices deve produzir o mesmo resultado, isto é, produzir os termos de índice. Em mineração de textos, a indexação é um processo automático (ver figura 2-5). Pode-se ver que os documentos que são fornecidos à ferramenta de indexação passam por uma sucessão de etapas de processamento e ao final é produzido um arquivo de índices que consegue localizar os documentos apresentados. Figura Sequência do processo de indexação automática 36

48 A primeira etapa responde por identificar as palavras, ou as fronteiras das palavras usualmente feitas pelo caractere em branco. A segunda elimina, dentre essas palavras, as não discriminantes (stop-words), em seguida, a terceira executa um procedimento de normalização de sufixos, o stemming. A quarta é responsável pela detecção de termos compostos, isto é, termos com mais de uma palavra. Finalmente, esses termos, pós-processados, são armazenados na estrutura invertida associados aos documentos de origem. É importante salientar que esse tipo de indexação automática ainda é bastante simples, não considera a semântica do documento nem a posição sintática das palavras nas orações. Em virtude dessas necessidades surgiram outras formas de indexação mais complexas que usam o mesmo motor de indexação, mas aplicado a uma estrutura de texto enriquecida com metadados. Os metadados são tags que marcam informações semânticas ou estruturais do texto. Para o indexador, as tags nada mais são do que novas palavras adicionadas ao texto que serão também indexadas Mineração A fase de Mineração envolve decidir quais algoritmos deverão ser aplicados sobre a massa de dados desenvolvida até o momento. Para tanto, deve se optar por uma ou mais Tarefas de Mineração, que nada mais é do que decidir o que se quer obter de informação. Por exemplo, se a necessidade de informação do usuário é obter o relacionamento entre documentos, verificando o grau de similaridade e a formação de grupos naturais, então a tarefa a ser escolhida é a clusterização. Em contrapartida, se estes grupos de documentos já existem, seja pela execução de algoritmos ou pelo conhecimento prévio de especialistas, então a indicação de aonde um novo documento 37

49 deve ser encaixado é conseguida através de algoritmos de classificação. As técnicas mais utilizadas são Classificação e Clusterização Análise A etapa de Análise da Informação também pode ser chamada de Pósprocessamento de dados e diz respeito à verificação da eficiência da aplicação dos algoritmos da etapa anterior. Em outras palavras, é o momento de avaliar se o objetivo foi cumprido da melhor forma possível, que é descobrir conhecimento novo e inovador a partir de pilhas de documentos não-estruturados. Existem diversas maneiras de se avaliar a mineração como um todo, seja de forma qualitativa ou quantitativa. A utilização de métricas, conforme já mencionado, é considerada uma forma quantitativa, ao passo que a utilização do conhecimento de especialistas no domínio é considerada uma forma qualitativa. Os especialistas devem sempre ser consultados, em todas as etapas da Mineração, balizando a análise, ajudando a resolver situações de conflito, indicando caminhos e complementando informações. Entretanto, alguns conflitos podem ocorrer como a divergência de opiniões entre dois ou mais especialistas, bem como, a própria mudança de opinião de um mesmo ao longo do tempo. Por último, a forma mais intuitiva de se analisar um resultado é fazendo uso de elementos gráficos, através de ferramentas de visualização. A introdução e gráficos, com noções de cores e distâncias, ajuda a entender o sentido de grandes e complexos conjuntos de dados, que não são facilmente manuseados. Na prática, estas métricas podem ser utilizadas como forma de avaliação do mesmo, isto é, para saber se o mecanismo funcionou ou não como deveria. Nesse caso, 38

50 as métricas poderiam informar para o usuário quantos e quais documentos lhe são relevantes, além de quanto cada um deles é relevante. Porém, para que essas métricas funcionem corretamente, é necessário que a coleção de documentos a ser analisada pelo sistema seja muito bem conhecida, ou seja, para cada documento é necessário saber, para quais consultas (ou assuntos) eles são relevantes. Segundo HAN e KAMBER(2001), os especialistas têm considerável dificuldade manual de analisar tantas regras para identificar algumas verdadeiramente interessantes. Para resolver tal problema, tem sido desenvolvida uma aproximação para ajudá-los a encontrar regras interessantes (em particular, regras inesperadas) de um conjunto de regras descoberto. A Análise de Interessabilidade alavanca o conhecimento do domínio existente para analisar descobertas e então classificar as regras descobertas de acordo com os vários critérios de Interessabilidade, tal como conformidade e vários tipos de inesperados. O procedimento de Interessabilidade refere-se a encontrar regras que são interessantes e úteis aos usuários, não somente qualquer regra possível. Pesquisas em Mineração de Dados tem mostrado que podemos medir a Interessabilidade de uma regra usando ambas as medidas: objetivas e subjetivas (LIU e CHEN, 2000). Medidas objetivas envolvem analisar a estrutura das regras, a performance preditiva, e a significância estatística. Entretanto, medidas objetivas são insuficientes para determinar a Interessabilidade de uma regra descoberta, sendo necessárias medidas subjetivas. 39

51 As duas principais medidas subjetivas de Interessabilidade são: Inesperabilidade: As regras são interessantes se elas são desconhecidas do especialista ou contradizem ao existente conhecimento do especialista (ou esperado); Acionabilidade: As regras são interessantes se os especialistas podem acionar alguma atividade que produza benefício. As regras interessantes podem ser classificadas dentro de três categorias: Regras que são ambas inesperadas e acionáveis; Regras que são inesperadas, mas não são acionáveis, e Regras que são acionáveis, mas esperadas. O foco deste trabalho é para o inesperado, ou seja, não é objetivo validar uma hipótese do negócio e sim identificar conhecimentos inexistentes que agregem a organização. 40

52 3. Estudo de Casos 3.1 Descrição do problema A Petrobras como operadora de saúde, com seu plano AMS, Assistência Multidisciplinar de Saúde, é um benefício empresarial, sem fins lucrativos e está presente, desde 1975, quando foi criado, por decisão da Diretoria Executiva, para atender às necessidades de saúde de cerca de 280 mil pessoas, entre eles empregados, aposentados, pensionistas e seus dependentes. E conta com uma rede credenciada de serviços de saúde de aproximadamente 22 mil prestadores, e opera praticamente em todo o território nacional. É um Programa gerenciado e operacionalizado pela própria Companhia (autogestão 1 ), de qualidade reconhecida, onde realiza o gerenciamento do pagamento dos credenciados 2, bem como o desconto das parcelas dos beneficiários 3 referentes às despesas efetuadas e contribuições mensais. Para um melhor atendimento aos seus usuários, sendo de beneficiários ou credenciados, a AMS oferece o serviço de Fale Conosco no site da Petrobras onde são registrados os elogios, reclamações, sugestões ou solicitações. As informações são registradas em linguagem natural em uma base de dados textual, onde cada registro corresponde a um texto contendo as transcrições de usuários da AMS. Esses textos 1 Autogestão entidades que operam serviços de assistência à saúde destinados, exclusivamente, a empregados ativos, aposentados, pensionistas ou ex-empregados, de uma ou mais empresas ou, ainda, a participantes e dependentes de associações de pessoas físicas ou jurídicas, fundações, sindicatos, entidades de classes profissionais ou assemelhados e seus dependentes. 2 Credenciado pessoa física ou jurídica, autorizada por entidade de classe regulamentada a executar ações e/ou serviços de saúde, coletiva ou individual, que prestam serviço às operadoras de plano privado de assistência à saúde. 3 Beneficiário usuário titular ou dependente dos direitos definidos em contrato assinado entre uma pessoa física ou pessoa jurídica com uma operadora para garantia da assistência. O termo beneficiário refere-se ao vínculo a planos de saúde, podendo existir mais de um vínculo para um mesmo indivíduo. 41

53 são fontes de informação importante para gestão da empresa, porém, na forma textual, há uma tarefa árdua de leitura por parte dos analistas de apreender o conteúdo de cada um. A figura 3-1 mostra a tela principal do Fale Conosco da AMS, onde o usuário poderá selecionar se deseja registrar ou consultar uma manifestação. Nota-se que o registro e consultas das manifestações são realizados na Internet ou Intranet da empresa. E na figura 3-2 são exibidos os campos do formulário para o registro da manifestação do Fale Conosco. Figura 3-1 Tela principal do Fale Conosco 42

54 Figura 3-2 Tela para registro da manifestação do Fale Conosco Uma característica interessante é que, dada a quantidade de registros e de analistas diferentes, as relações entre os textos, isto é, as associações entre os temas descritos nos registros não são observadas. Essas informações implícitas, que existem apenas no contexto da análise de vários documentos concomitantemente, não são visualizadas por falta de ferramental apropriado. Dessa forma, o trabalho manual de leitura de classificação, de envio de mensagens aos gestores e de respostas aos usuários demanda tanto recursos humanos 43

55 quanto tempo e, assim, impacta diretamente na velocidade e na qualidade de atendimento esperado pelo usuário. Como mencionado, o trabalho é feito manualmente e, dado o seu volume, o acúmulo é inevitável. Eventualmente, são executados mutirões de leitura com objetivo de dar vazão às mensagens represadas e de compreender problemas específicos apontados nos seus conteúdos. Outra característica advinda da manipulação das informações por pessoas é que a classificação das mensagens e o encaminhamento para destinatários corretos estão correlacionados à experiência do profissional, isto é, a chance de erros aumenta proporcionalmente a sua inabilidade em reconhecer o assunto das mensagens e vinculálas às áreas gestoras. Dessa forma, há que se fazer uma verificação rotineira para reclassificar essas mensagens. Os agrupamentos criados para categorizar os textos devem passar por revisões, em consequência da dinâmica do fluxo de trabalho, com objetivo de identificar novas categorias ou eliminar antigas que não mais se aplicam. Considera-se que a informação contida nos documentos do Fale Conosco é importante para a estratégia de atendimento e, uma vez estruturada, pode nortear a gestão estratégica na definição de políticas para serviços da organização com o objetivo de melhor atender à demanda do usuário. 3.2 Obtenção do arquivo de dados Para a construção do modelo de mineração de textos é importante que se tenha um conjunto de documentos pré-classificados nas diversas categorias temáticas do domínio de interesse, neste contexto a base de dados do Fale Conosco. 44

56 Os usuários do Fale Conosco, dos Serviços de atendimento aos usuários de assistência à saúde da Petrobras, utilizam a internet ou Intranet da empresa para digitação do texto a ser realizada a comunicação com áreas representantes do Plano de saúde. Estas informações são armazenadas em base de dados Lótus Notes, mas devido à política de acesso da Segurança das Informações da Empresa, a obtenção dos dados se deu através de planilhas em formato Excel. A própria aplicação do Fale Conosco contém uma funcionalidade que exporta as informações para planilhas Excel. As informações das planilhas utilizadas encontram-se na seguinte estrutura: Ano: Ano da criação do registro; Número do Mês: Número que corresponde ao mês de criação do registro; Mês: mês da criação do registro; Dia: dia de criação do registro; Serviço: Tipo de serviço selecionado pelo solicitante (AMS, gestão da Rede Credenciada, Beneficiário...); Assunto: Assunto da solicitação; Código: Chave numérica, única para cada solicitação; Tipo: Tipo da solicitação (dúvida, elogio, sugestão...); Origem: Origem da solicitação (Internet, correio interno...); Situação: situação da solicitação (aberta, encerrada...); Dias Executados: quantidade de dias que foram utilizados para solucionar a solicitação; 45

57 Gerência: Gerência do solicitante; Descrição: Transcrição textual da solicitação do usuário; Responsável: Solicitante responsável pela abertura da solicitação; Chave Solicitante: Chave interna da empresa, caso solicitante tenha aberto a solicitação pelo correio interno; Após entendimento sobre o significado dos campos, foi percebida a importância de identificação de quais informações seriam úteis e necessárias para o estudo de caso a ser realizado, portanto as seguintes informações foram consideradas: Ano: Ano da criação do registro; Número do Mês: Número que corresponde o mês de criação do registro; Mês: mês da criação do registro; Assunto: Assunto da solicitação; Origem: Origem da solicitação (Internet, correio interno...); Tipo: Tipo da solicitação (dúvida, elogio, sugestão...); Gerência: Gerência do solicitante; Descrição: Transcrição textual da solicitação do usuário. Serão avaliados em torno de registros da Base de Dados do Fale Conosco, de um período de 1(um) ano (de março de 2008 a fevereiro de 2009). Os exemplos ilustrados na tabela 3-1 mostram registros extraídos da base estudada. 46

58 Tabela 3-1 Exemplos da Base de Dados Ano Mês Assunto Origem Tipo Gerência Descrição Deze mbro SUGESTÃ O RSUD Deze mbro Deze mbro Orientações Normativas sobre o Programa de AMS Caracteriza ção de Dependente s Desconto parcelas de Grande Risco ou Plano 28/33 INTRAN ET INTRAN ET DÚVIDA/ CONSULT A RECLAM AÇÃO RSUD RSUD Nome: XxXXXXx Chave: XXXX Ramal: XXXXXXXXXXx Lotação: XXXXXXXXXX Mensagem: Caros amigos, Sinto-me extremamente desgostoso com o planos AMS Petrobras...Pois moro na localidade da Vila da Penha, no município do Rio de Janeiro e as 2 clinicas que são de confiança e mais próximas de minha residência não aceitam este referido plano (Clínica Br Balbino e grande Rio). Como se não bastasse, Meu médico deixou de trabalhar para este plano, devido ao valor de pagamento e demora no mesmo. E a maioria das clínicas que quero realizar algum tipo de tratamento não aceitam e o que me deixa mais triste e atônito é saber que o plano da BR Distribuidora, uma subsidiária desta empresa que trabalho, é prontamente aceito por todos... Gostaria realmente de saber como faço para deixar de utilizar este plano. Obrigado. Fale com a AMSUm contato foi efetuado por um visitante do Portal. Verifique abaixo os dados recebidos.nome: Fernando Henrique Fernandes mat: Chave: XXXRamal: XXXXXXXLotação: XXXXXXXXXXXXXMensagem: Gostaria de realizar a exclusão de um de meus dependentes,devido falecimento do mesmo 'Contato: XXXXXXXXXXX Mat.: XXXXXXXx Valores lançados no contracheque da A.M.S. Grande Risco] Em função de ter dado umas discrepâncias nos valores cobrados e lançados nos contracheques referentes à A.M.S. Grande Risco,resolvi fazer uma conferência, coisa que nem me preocupava fazer, e gostaria que fosse analizada por vocês. Se não me enganei em nunhum dado, entre setembro de 2007 e outubro de 2008 foi me cobrado a importância de R$4638,00 quando deveria ser R$4062,06, conforme planilha anexa.não entendo o porquê desta alteração mensal de cobrança se o valor do grande risco é constante todos os meses. Esta metodologia dificulta a conferência, coisa que eu não fazia e passarei a fazer pois me parece que o sistema não está confiavel. -xxxxxxxxxx 47

59 3.3 Pré-processamento dos dados Após a coleta dos dados, um passo essencial e que consome a maior parte do tempo é a preparação dos dados. Este processo envolve várias tarefas, conforme descrito no item Além disso, esta etapa exige planejamento e processamento, pois durante a transformação dos textos em formato estruturado existe a possibilidade de que a informação intrínseca ao conteúdo dos textos seja perdida. Deve-se buscar, portanto, uma boa apresentação minimizando a perda de informação. Com os dados disponíveis foi inicializada a etapa de validação, exploração e limpeza dos mesmos. Nesta etapa, um estudo exploratório dos dados foi realizado para se detectar impurezas, valores absurdos, ruídos e buscar uma maior compreensão dos dados que iriam ser tratados. Primeira observação feita foi à verificação da confiabilidade dos dados obtidos, porém os dados estavam preenchidos para as informações necessárias ao estudo, pois os documentos com valores nulos foram desconsiderados. E os dados confiáveis, apresentavam alguns valores absurdos, ruídos, que necessitavam de uma limpeza, conforme exibido na figura 3-3. Figura 3-3 Exemplo de ruído na base de dados 48

60 Os ruídos mais evidentes eram apresentados nos registros cadastrados por externos. Portanto, precisavam ser removidos para não interferir em efeitos negativos que pudessem influenciar o resultado final. Então, precisou incluir mais um passo no processamento dos dados para eliminação dos ruídos. O processo de preparação constitui-se da estruturação dos dados e se deu basicamente nos seguintes passos: O primeiro passo: Retirada de registros duplicados, onde foi verificado que 87 registros eram supostamente duplicados, entretanto, eliminá-los prontamente pode retirar informação importante. Diante disto, verificou-se registro a registro e constataram-se algumas duplicações que foram eliminadas. Os registros apresentados na tabela 3-2 indicam uma duplicação, pois o único campo diferente é o código do registro, mas a manifestação é igual. Código Ano Mês Tipo Origem Sete mbro Sete mbro Tabela 3-2 Exemplos de duplicação de Registro Gerência RECLA MAÇÃO RECLA MAÇÃO SAMS SAMS Descrição faleams contato foi efetuado visitante Portal Verifique abaixo dados recebidos Nome e Ramal Lotação Mensagem Senhores AMS,O acho mais interessante é sequer descrição reclamação foi registrada conforme relato comer fiquei hospital sexta noite domingo tarde não apenas dia foi colocado hospital disse ficaria ali momento não havia apartamento vago nenhum momento fui informado procedimentos executados estariam... faleams contato foi efetuado visitante Portal Verifique abaixo dados recebidos Nome e Ramal Lotação Mensagem Senhores AMS,O acho mais interessante é sequer descrição reclamação foi registrada conforme relato comer fiquei hospital sexta noite domingo tarde não apenas dia foi colocado hospital disse ficaria ali momento não havia apartamento vago nenhum momento fui informado procedimentos executados estariam... 49

61 O segundo passo: O campo Descrição, que contém a transcrição textual das informações relevantes dos usuários do Fale Conosco, apresenta alguns caracteres inválidos, não reconhecidos, que provocarão erros durante o processamento das informações, conforme figura 3-4. Foi necessário, então, um amplo pré-processamento nos textos utilizados, para o tratamento dos dados, em que foram retirados os caracteres inválidos. Figura Exemplos de texto original com caracteres inválidos No terceiro passo: Retiraram-se os sinais de pontuação (, -.! / ), que são indesejados dentro de uma análise. Como também, retiraram-se os caracteres matemáticos, como %, +, <, o caractere monetário ($) e os caracteres de formatação (caractere de tabulação, newlines, etc). No quarto passo: A extração de termos é executada automaticamente e normalmente o espaço em branco entre as palavras é o indicador para dividir o texto em 50

62 termos. Então, para a retirada dos números, primeiramente foi necessário analisar a base de dados para verificar os números de grande valia, como por exemplo, 2via, 10mg, 20mg, etc. Onde foi realizada uma junção dos números com a palavra relevante. E somente após esta verificação, foram excluídos os números sem nenhuma importância. Para o quinto passo: Como se deve ter o cuidado de não separar palavras compostas, como por exemplo, mineração de textos e por isso faz-se necessário a execução de testes para verificar e validar a co-ocorrência entre termos. Na base de dados estudada alguns termos precisaram ser considerados como Raio-X, infraestrutura, faleams, belo horizonte, ex-esposa, buço-maxilo-facial, pre-operatorio, recemnascido, entre outras. Conforme pode ser observado no exemplo faleams, alguns termos foram juntados para que pudessem melhor ser considerados, e não confundidos com outros termos semelhantes, como ams". No sexto passo: Foi definida a stoplist a ser utilizada, foi feita a opção de se criar uma lista manualmente para que pudessem ser retirados os termos sem importância, isto é, a lista foi criada a partir da freqüência de aparição das palavras, mas também foi validada por um especialista no domínio do assunto. Foi necessário acrescentar alguns termos em inglês na lista de stopwords, devido aos ruídos encontrados em algumas solicitações com a origem mensagens externas. E conforme validado pelo especialista no domínio do assunto, não recebem solicitações em inglês, somente na Língua Portuguesa. Os termos em inglês incluídos na lista de stopwords são: Live, Search, Maps, entre outros. A lista com alguns termos utilizados e composta por preposições, conjunções e artigos, é apresentada na tabela

63 a à agora ainda além alguém algum alguma algumas alguns ampla amplas amplo amplos ante antes ao aos após aquela aquelas aquele aqueles aquilo as ate até através cada da daquele day coisa coisas com como contra contudo daqueles das de dela delas dele deles depois dessa dessas desse desses desta destas deste deste destes disso disto dito Tabela 3-3 Stoplist utilizado no estudo de caso do dos e é e' ela elas ele eles em essas enquanto entre entretanto era essa esse esses esta este estes estou eu grande grandes há information isso isto já la la lá lhe lhes live lo maps mas me na mesma mesmas mesmo mesmos meu meus mim minha minhas monday msn muita muitas muito muitos não nas nem nenhum nessa nessas nesta nestas new ninguém no nos nós nossa nossas nosso nossos num numa nunca o onde os ou outra outras outro outros p para pela pelas pelo pelos pequena pequenas pequeno pequenos per perante pois por porém porque posso pouca poucas pouco poucos pra primeiro primeiros própria próprias próprio próprios quais qual quando quanto quantos que quem ramal são se search seja sejam sem sempre sendo seu seus si sido só sob sobre sua suas talvez também tampouco te tem teu teus the ti time times toda todas todavia todo todos tu tua tuas tudo última últimas último últimos um uma umas uns vendo ver vez vindo vir vos vós with york Essa fase tem como objetivo remover stopwords. A remoção de stopwords foi realizada de modo automático. Primeiramente, criou-se uma estrutura de dados do tipo lista contendo todas as palavras que poderiam ser removidas. Posteriormente, aplicou-se um algoritmo cujo objetivo foi realizar uma pesquisa no arquivo e remover as palavras que fossem iguais a alguma presente na stoplist. No sétimo passo: Para a remoção das abreviaturas existente na descrição da manifestação, foi necessário analisar se alguma abreviatura presente era relevante ao contexto, como as abreviaturas rx de raio x e ato de autorização prévia de procedimentos odontológicos. Logo, as abreviaturas rx e ato não puderam ser eliminadas, 52

64 sendo desconsideradas nos passos adiante, de lematização. Mas, as demais abreviaturas, qd, re, vc, Sr., Sra, podem ser removidas do documento. Assim como, as abreviaturas da lotação dos usuários, rsud, rbc, etc também foram desconsideradas. No oitavo passo: Realização da remoção dos nomes próprios, feita com a utilização de um dicionário de nomes próprios, pois não se objetiva identificar ninguém e, portanto, esses termos somente aumentariam o tempo de processamento e não agregariam valor ao trabalho. Similar ao processo de stoplist, foi criada uma lista com os nomes próprios, como por exemplo, Erica, Jussara, Marcus, Flavia, Joel, Mendonca, Jacy, Odete, etc. Após criada a lista de nomes próprios, foi aplicado um algoritmo para realizar a pesquisa no arquivo e remover os nomes próprios iguais a algum presente na lista. No nono passo: Para o especialista do domínio do assunto os endereços de e- mails eram palavras irrelevantes ao estudo, portanto foi feito um processo para a retirada destes endereços existentes nas manifestações. Para a eliminação dos endereços de s foi criado um algoritmo onde o token que contivesse o o token inteiro era eliminado. A lematização foi feita após o processamento dos dados na ferramenta de mineração de textos, devido à ferramenta a ser utilizada possuir este recurso. Após todos estes passos, o texto se apresenta com palavras mais ricas a serem estudadas. A figura 3-5 mostra o exemplo do texto apresentado na figura 3-4 após o préprocessamento dos dados. 53

65 Gostaria receber esclarecimentos cobertura plano procedimentos implantes dispositivos intrauterinos grato FaleAMS contato foi efetuado visitante Portal Verifique dados recebidos Nome XX Chave XX Ramal Lotação Mensagem Boa tarde Gostaria saber AMS cobre cirurgia parto cesariana caso positivo considerado grande pequeno risco percentagem participação empregado Aguardo retorno rápido possível Figura Exemplos de texto após etapa de pré-processamento 3.4 Mineração O programa SAS A ferramenta utilizada para a descoberta de regras na base de dados de utilização do estudo de caso foi do Instituto SAS (Statistical Analsys System SAS Institute inc.). O Instituto SAS utiliza software analítico para ajudar aos clientes a transformarem dados em conhecimento. (INSTITUTO SAS, 2009) As ferramentas utilizadas para o processo foram o Enterprise Guide e o Enterprise Miner, este último é necessário para a utilização do módulo Text Miner. O Enterprise Guide é uma ferramenta OLAP para Windows, orientado por projetos, e que possibilita acesso rápido a uma grande parte da potencialidade analítica do instituto SAS para estatísticos, analistas de negócios e programadores SAS. O programa suporta leitura de textos em vários formatos como por exemplo, Word, HTML, pdf, txt, Excel, Access, entre outros. (INSTITUTO SAS, 2009) O Enterprise Miner, software de Data Mining, inclui uma diversidade de componentes, para seleção, exploração, modificação, modelação e avaliação de dados permitindo uma forma fácil e rápida de obter conhecimento. Estes componentes são integrados capacitando os utilizadores a tirarem proveito dos dados corporativos para obter vantagem estratégica, tudo num único ambiente. As suas ferramentas de visualização permitem uma análise rápida e fácil dos dados e resultados obtidos. 54

66 O módulo Text Miner é o produto do instituto SAS para Text mining. Este módulo disponibiliza ferramentas para descobrir e extrair informação de uma grande variedade de documentos de texto numa coleção. O Text Miner descobre os temas e conceitos que estão contidos na coleção. Estabelece conexões entre documentos e termos de na coleção como um todo. O Text miner permite descobrir e usar a informação que existe num conjunto de documentos como um todo. Podem-se processar volumes de dados textuais como mensagens de , artigos de notícias, páginas da Web e documentos de pesquisa, até mesmo se eles são armazenados em diferentes idiomas ou formatos de dados. Ele transforma os dados em texto em um formato utilizável que facilita a classificação dos documentos, encontrando relações explícitas ou associações entre documentos, e agrupamento de documentos em categorias. (INSTITUTO SAS, 2009) O Text mining começa com a criação de um conjunto e dados de input para o módulo de Text Miner. O módulo processa dados em três fases: parsing do texto, transformação, e clustering de documentos. O parsing do texto processa dados textuais numa matriz de frequência de termo-documento que é adequada para propósitos de data mining. Uma coleção de documentos pode conter centenas de milhares de condições. A matriz de frequência resultante pode ser muito grande. O clustering no módulo Text Miner coloca documentos em grupos pequenos ou clusters. Objetos num determinado agrupamento tendem a ser semelhantes entre si em algum aspecto, e objetos em agrupamentos diferentes tendem a ser dessemelhantes. A figura 3-6 apresenta a tela interativa do Text Miner. (INSTITUTO SAS, 2009) 55

67 Figura 3-6 Tela interativa do Text Miner Lematização Após carregar o arquivo pelo Enterprise Guide e processar os dados no Text Miner, foi feita a lematização, a diminuição da quantidade de termos que alimentam o minerador de textos. Um dos recursos lingüísticos disponíveis na ferramenta é a redução das palavras ao Lema. Foram lematizados em torno termos. Observou-se que 50% dos termos lematizados possuem apenas 2 formas, exemplo, o e os foram substituídos por o. Ainda que 90% dos casos, os termos possuem até 8 variantes. A tabela 3-4 mostra o resumo da lematização. Tabela 3-4 Estatísticas dos Termos Lematizados N 50% 90% Máximo ~ De acordo com os números apresentados, observa-se que a quantidade de lemas é de aproximadamente 2.000, o que significa uma redução de 70%, termos, o que indica um vocabulário simples. O número máximo de termos encontrados foi 43, esse 56

68 número parece indicar um erro. Entretanto, verificando o arquivo mais detidamente, conforme tabela 3-5, trata-se de um verbo comum neste tipo de texto. Tabela 3-5 Termo com maior quantidade de variantes Termo Termo Termo Termo 1 informando-os 12 informou-se 23 informou-a 34 informava 2 Informa 13 informá-los 24 informa-lo 35 informados 3 informara 14 informa-o 25 informarão 36 informe 4 informas 15 informando-a 26 informo 37 informam 5 Informo-a 16 informando-o 27 informavam 38 informaram 6 Informo-o 17 informarei 28 informa-la 39 informar 7 informou-me 18 informassem 29 informadas 40 informando 8 informou-os 19 informei 30 informarem 41 informou 9 informou-se 20 informa-lhe 31 informasse 42 informada 10 Informá-los 21 informem 32 informá-lo 43 informado 11 Informa-os 22 informes 33 informá-la Todas as variantes da tabela 3-4 foram computadas como informar, logo a palavra passa a receber um peso maior segundo sua frequência. Observa-se que a palavra informes pode tanto se referir a 2ª pessoa do singular do subjuntivo informes quanto ao substantivo plural informes. Essa ocorrência foi observada mais constatouse que se tratava do substantivo. Outras variantes de termos são apresentadas na tabela 3-6. Tabela 3-6 Variantes de Termos aguardar solicita Médico aguardamos solicitação Médica aguarda Solicitada aguardando Solicitado aguardo Solicitamos aguardasse Solicitando aguardei aguardam Solicita-nos Solicitar Solicitei Solicito solicitou 57

69 3.4.3 Exploração dos Termos Termos que se repetem em todos os documentos são poucos informativos para o objetivo de criar agrupamentos, pois não discriminam um documento de outro. Termos com peso baixo também são candidatos à eliminação. Dessa forma pesos menores que 0,10 foram eliminados. Foi necessário proceder à eliminação de palavras que não foram eliminadas automaticamente no pré-processamento, como por exemplo, nomes de pessoas. Outro ponto foi unificar palavras escritas de forma errada, por exemplo, urgente e urgênte. Alguns destes erros não foram identificados automaticamente e o trabalho teve que ser manual. Outra ferramenta que auxiliou para a desconsideração de alguns termos foi o gráfico da figura 3-7 que apresenta o histograma dos atributos por frequência. Onde o tipo de atributo Unknown considera os atributos com caracteres especiais, como por exemplo, o termo infra-estrutura e rh/mas; o tipo Abbr são os termos abreviados, como por exemplo hosp abreviatura de hospital; tipo Num, são termos que possuem caracteres numéricos como o termo 2ºvia; e o tipo punct são os termos com pontuação como &. Como já era esperado, o tipo alpha seria o tipo de maior frequência, mas o gráfico foi útil para indicar que mesmo após pré-processamento, a base ainda possuía termos indesejados, como os tipos punct e abbr que foram desconsiderados. Figura 3-7 Histograma de atributos por frequência 58

70 Outro passo para exploração dos termos com pouca capacidade de discriminação é a elaboração de agrupamentos e a verificação de suas palavras relevantes. A tarefa de criação dos grupos de documentos está representada na figura 3-8 que indica os passos seguidos. Figura 3-8 Agrupamento de Documentos O passo da preparação dos dados foi descrito na seção anterior e consiste na adequação da informação textual para o formato requerido pelo algoritmo de agrupamento. Essa etapa ocupa-se em rotular cada um dos documentos do corpus baseado no exame de seus termos e, dessa maneira, reuni-los em grupos menores que deverão conter documentos similares. A idéia é maximizar tanto a similaridade entre os documentos dentro do grupo, quanto à diferença entre eles de grupo para grupo. A criação de grupos é um processo matemático que calcula a distância entre os documentos devidamente transformados em vetores numéricos. Portanto, os grupos criados carecem de significado, isto é, devem-se analisar cada um dos grupos para verificar o significado implícito dos documentos que contém e, assim, atribuir rótulos aos grupos para organização e identificação do assunto de cada um deles. Essa fase conta com o apoio do especialista de domínio do assunto para identificação do tema de cada grupo. A figura 3-7 mostra exemplos de agrupamentos gerados pela ferramenta. 59

71 Tabela 3-7 Exemplos de agrupamentos para depuração da base Agrupamento 1 Agrupamento 2 demonstrativo pagamento imposto + beneficiário + informar + receber CNPJ procedimento CPF guia 2via + enviar renda total Os termos da tabela 3-7 são os termos que descrevem os agrupamentos, isto significa que esses termos são mais prováveis de ocorrer em um agrupamento e não necessariamente que ocorram em todos os documentos dentro de um agrupamento. É importante relacionar o tipo de melhoramento que o processo de automação pode trazer, ou seja, uma das reclamações mencionadas pelos analistas foi a ambiguidade de grupos que foram criados e nesta análise chegou-se à conclusão que dois ou mais grupos podiam ser unificados diante da constatação da similaridade entre seus documentos. 60

72 4. Resultados Um dos principais objetivos da mineração são a quantificação e caracterização de seu objeto de estudo. Com o levantamento dos números intrínsecos à base de dados textuais pode-se compreender a sua abrangência e iniciar a construção de inferências que antes estavam ocultas na forma de texto. Nesta fase, o apoio de especialistas de domínio foi fundamental para que se pudessem traduzir os resultados obtidos em informações que fossem de interesse do gestor do sistema. Segundo a opinião dos especialistas, esse tipo de informação deve estar tão atualizada quanto possível, pois se tratam de problemas pontuais apontados pelos clientes que encontram dificuldades ou insatisfação em relação a produtos ou serviços da empresa naquela data específica. Esse apontamento pode variar com o passar do tempo. A análise dos resultados foi realizada à medida que o estudo foi evoluindo e está dividida em duas etapas chamadas respectivamente de primeira e segunda análise, sendo que a primeira é uma análise estatísticas básicas da base de dados, e a segunda uma análise dos agrupamentos extraídos da base de conhecimento. 4.1 Estatísticas básicas da base de dados das manifestações De posse de dados e ferramentas apropriadas para o desenvolvimento do projeto, foram realizadas as tarefas descritas na metodologia. Então, inicia-se a descrição observando a distribuição dos registros em relação ao tempo. A tabela 4-1 representa a distribuição das ocorrências. 61

73 Tabela 4-1 Distribuição Mensal das Ocorrências Mês Frequência % Frequência % Acumulada Março , ,27 Abril , ,47 Maio , ,12 Junho , ,87 Julho , ,70 Agosto , ,99 Setembro , ,95 Outubro , ,30 Novembro , ,77 Dezembro , ,31 Janeiro , ,23 Fevereiro , ,00 De acordo com a tabela 4-1, existem registros no período de 12 meses, com uma média de registros mensais. Nota-se que o mês de março possui um altíssimo índice de manifestações. Mas, o mês de agosto também possui uma evidência em relação aos demais meses. Isso indica que quando ocorrem fatos que influenciam o atendimento, os clientes (credenciados e beneficiários) utilizam o canal de atendimento do fale conosco para manifestar sua opinião. A figura 4-1 mostra um gráfico que destaca essa tendência da utilização do fale conosco de maneira mais clara: Março Abril Maio Junho Julho Agosto Setembro Outubro Novembro Dezembro Janeiro Fevereiro 62

74 Figura 4-1 Histograma com a distribuição Mensal das Ocorrências Continuando com a delimitação do escopo do projeto, descobrir o que incomoda o cliente é uma meta pretendida por qualquer empresa que se preocupa com a satisfação de seus clientes. Para tanto, parece óbvio que concentrar os esforços de estudo na reclamação feita pelo cliente é algo natural. Mas, neste caso as solicitações de serviços são de suma importância, conforme figura ,95% 6,17% 0,15% 19,87% 0,02% 0,26% 33,59% AGRADECIMENTO DÚVIDA/CONSULTA ELOGIO GRANDES DIVULGAÇÕES RECLAMAÇÃO SOLICITAÇÃO DE SERVIÇO SUGESTÃO Figura 4-2 Percentual de manifestações por tipo Um outro ponto interessante é identificar o canal que concentra a entrada de dados. Entretanto, como este não possui uma padronização correta fica difícil realizar este reconhecimento com precisão. Observa-se na figura 4-3, que com a padronização existente a preferência do cliente ao utilizar o Fale Conosco é o correio interno, mas o correio interno incorpora as manifestações por telefone efetuadas pelo Call Center e as manifestações transcritas pelos próprios usuários no próprio site da Intranet da empresa. Nota-se que é de grande valia uma categorização da origem das manifestações. 63

75 16% (Internet) CORREIO INTERNO 84% Figura 4-3 Percentual de manifestações por origem Outra análise realizada foi a quantificação das manifestações por gerência, como podemos observar na tabela 4-2, a gerência RSUD é a gerência que mais recebe manifestações, devido a sua abrangência geográfica de atendimento, o que já era esperado. E a figura 4-4 mostra graficamente o percentual de manifestações por gerência. Tabela 4-2 Distribuição das Manifestações por Gerência Gerência Quantidade manifestações % RBC ,71% RNNE ,89% RSPS ,77 RSUD ,62% TOTAL % 30,8% 42,6% RSUD RBC RNNE RSPS 21,9% 4,7% Figura 4-4 Percentual de manifestações por gerência 64

76 4.2 Análise dos agrupamentos Dado que o trabalho de depuração da base se encontrava em um nível satisfatório, realizou-se o agrupamento da coleção com o objetivo de alocar os documentos semelhantes em grupos. O objetivo é maximizar a diferença entre os grupos e minimizar a diferença internamente. 13,69% 13,07% 8,06% 7,14% 6,48% 0,00% 0,01% 0,03% 0,05% 0,06% 0,09% 0,10% 0,11% 0,15% 0,19% 0,20% 0,24% 0,25% 0,27% 0,28% 0,32% 0,38% 0,43% 0,45% 0,49% 0,53% 0,54% 0,55% 0,56% 0,58% 0,59% 0,60% 0,62% 0,64% 0,69% 0,70% 0,75% 1,23% 1,28% 1,29% 1,71% 2,14% 2,91% 2,94% 3,19% 3,56% 3,93% 3,97% 4,53% 4,38% Figura 4-5 Distribuição dos agrupamentos A partir dessa base pré-limpa, foram gerados 63 agrupamentos que auxiliam a visualização dos termos relevantes, conforme figura 4-5 que exibe a distribuição destes grupos. Os agrupamentos encontrados foram analisados por um especialista do assunto que utilizou as medidas de peso e frequência para seleção dos grupos, conforme pode ser observado no gráfico da figura 4-6. Onde são atribuídos pesos maiores para elementos menos freqüentes. 65

77 Figura 4-6 Distribuição do Peso por frequência E o gráfico 4-7 exibe a distribuição da quantidade de documentos por frequência, onde nota-se que a maioria dos termos encontra-se restrito a poucos documentos, e poucos termos disseminados em um número grande de documentos, conforme gráfico da figura 4-7. Ou seja, os termos estão próximos a uma diagonal principal, o que representa a não ocorrência de ruídos. Se ocorressem termos com freqüências altas em poucos documentos ou freqüências baixas em muitos documentos poderiam representar potenciais candidatos a stoplist. Portanto, concluímos que não existem ruídos nos dados processados. Cada ponto representa o termo, mostrando que existe uma grande concentração de termos (eixo vertical) com frequências similares. Esta hipótese pode ser confirmada no histograma de número de documentos por frequência exibido na figura

78 Figura 4-7 Distribuição da quantidade de documentos por frequência Figura 4-8 Histograma de Número de Documentos por frequência Foram considerados válidos os grupos com frequência superior a 0,075, indicando a maior ocorrência. Com essa configuração encontrou-se 19 grupos. O especialista do assunto optou por analisar somente estes grupos, devido aos outros grupos apresentarem uma menor ocorrência nas manifestações analisadas e por serem assuntos menos relevantes a serem tratados. Como por exemplo, os assuntos tipos exames cobertos pelo plano e empréstimos. Para os tipos de exames cobertos devem ser analisados conforme a necessidade do beneficiário. E para o assunto empréstimos, são abertas manifestações equivocadamente. A seleção de termos foi baseada na filtragem baseada no Peso do Termo. Mas a análise de resultados foi feita considerando as taxas de frequência e número de 67

79 documentos em que os termos aparecem. O resumo da execução dos termos foi: Tabela 4-3 Resumo de execução Índice Mínimo Máximo Frequência Peso 0,107 0,978 Número de documentos A tabela 4-4 exibe exemplos dos termos com os índices: frequência, número de documentos e peso. O que auxilia na análise dos termos encontrados em cada agrupamento gerado. Tabela 4-4 Exemplos dos termos com os índices Term Attribute Freq numdocs weight Contato Alpha ams Alpha Solicitar Alpha Valor Alpha Dia Alpha Senha Alpha credenciado Alpha Informar Alpha Enviar Alpha Guia Alpha Nome Alpha pagamento Alpha Referente Alpha Manifestar Alpha Atender Alpha Dados Alpha Saber Alpha Mês Alpha procedimento Alpha Efetuar Alpha Gostaria Alpha Verificar Alpha

80 Figura 4-9 Links do Termo Credenciado Figura 4-10 Links do termo Descontar Outra importante fonte de auxílio para a análise do especialista é a apresentação dos links dos termos gerados automaticamente pela ferramenta. Exemplos de links dos termos credenciados e descontar são exibidos respectivamente nas figuras 4-9 e Nesta visualização podem ser observadas as relevâncias dos termos vinculados. 69

Exibir mais