ESQUELETO UM ESTUDO SOBRE O LÉXICO DO CORPO HUMANO Aluno: Bruno Carriço de Azevedo Orientador: Cláudia Freitas 1. Introdução O projeto Esqueleto tem como objetivo a investigação do léxico do humano em grandes ra e subordina-se ao objetivo mais amplo de melhoria de recursos linguísticos para o processamento automático da língua portuguesa. A motivação inicial vem da estreita relação entre as palavras do e a expressão de emoções e sentimentos especificamente de Freitas et al.(2014), quando se verificou, na análise de resenhas de livros, a grande presença de expressões de opinião vinculadas ao. Investigar as palavras do humano, portanto, contribui para um levantamento de pistas lexicais que devem ser consideradas por sistemas interessados em detectar opinião em textos, ao mesmo tempo em que contribui também para a descrição de como expressamos opinião em português. O estudo acontece por meio da exploração, análise e anotação dos ra do projeto AC/DC (http://www.linguateca.pt/acdc), hoje com mais de 1 bilhão de palavras. A anotação semântica é feita de maneira semiautomática. Além do tamanho e variedade, escolhemos trabalhar com o AC/DC devido ao seu livre acesso. Assim, tudo o que estamos fazendo está público e disponível. O projeto vem sendo executado na Linguateca através de como uma colaboração entre a PUC-Rio e a Universidade de Oslo. 2. Objetivos O Esqueleto procura responder principalmente as duas seguintes perguntas: (i) como nos referimos ao / partes do em português?; (ii) que outros tipos de sentido atribuímos às palavras que compõem o léxico do? A partir daí estabelecemos a distinção entre os usos físicos e os não físicos do vocabulário relacionado ao humano, enquadrando-os em categorias semânticas que foram sendo criadas ao longo da análise e anotação dos ra do AC/DC. Os dados obtidos pelo projeto podem ser utilizados não apenas para estudar aspectos linguísticos e culturais como descrição da língua, análise de sentimento e opinião, estudos literários, etc. como para desenvolver aplicações práticas de processamento automático da linguagem, ferramentas de tradução, etc. 3. A Escolha do Material e o Processo de Anotação A popularização dos computadores pessoais, do acesso a internet e da digitalização de documentos aumentou de maneira considerável o volume de textos disponíveis para os mais variados tipos de análise; no entanto, esses dados são de uso limitado se não passarem por um processo de anotação, seja ela semiautomática ou manual. O projeto Esqueleto consiste, principalmente, na anotação dos ra do AC/DC e posterior análise dos dados obtidos e gerados pelo processo. O processo de anotação é semi-automático, utilizando uma ferramenta desenvolvida para este tipo de atividade. As regras são linguisticamente motivadas, e tiramos proveito da informação semântica e morfossintática previamente existente, já incluída no corpus pelo analisador sintático PALAVRAS. Em termos gerais, o processo parte de um léxico inicial (no
nosso caso, uma lista com palavras do humano, que pode conter palavras simples como pé ou expressões como batata da perna e céu da boca ) que é aplicado às palavras do corpus, anotando-as como palavras relativas ao humano. Em seguida, por meio da análise das palavras inicialmente anotadas, são criadas regras de especialização ou de eliminação, para corrigir casos como umbigo do mundo, que receberá uma etiqueta semântica específica, e coluna social, em que coluna será desconsiderada como palavra do. Até agora, dois ra foram integralmente revistos no Esqueleto: o Museu da Pessoa, composto por entrevistas orais transcritas, com 1,4 milhão de palavras, e o OBras, uma coleção de 25 obras da literatura brasileira do final do século XIX e início do século XX, com 1,2 milhão de palavras. Acreditamos que, por serem materiais de características tão distintas (literatura e fala), esses textos oferecem a oportunidade de estudar uma ampla gama de aspectos da língua portuguesa. O trabalho de revisão da anotação consiste em realizar buscas específicas nos ra do AC/DC e rever, caso a caso, se os resultados retornados pelas buscas se encaixam adequadamente na categoria semântica procurada. Quando é encontrado algum erro escrevese uma regra para corrigí-lo, mudando a palavra ou expressão em questão para a classe semântica correta. É um processo demorado e trabalhoso, mas alguns de seus benefícios, para o anotador, podem ser percebidos após pouco tempo, como uma maior proximidade no contato com a língua, a possibilidade de testar hipóteses com ocorrências do uso real da língua. 4. As Classes Semânticas do Esqueleto O primeiro passo no processo de anotação semântica do léxico do humano foi estabelecer uma lista abrangente com palavras ou expressões que formem esse léxico, como braço, coração, palma da mão ou céu da boca. Essa etapa, a princípio uma das mais simples do projeto, ainda assim pode levantar questões dignas de serem consideradas, como até onde vão os limites do humano: algumas culturas, por exemplo, consideram a sombra como parte integrante do, o que pode nos parecer estranho. Depois de estabelecida a lista inicial do léxico do humano em português, podemos começar a observar quando as palavras se referem ao e quando elas irão se encaixar em outros campos semânticos. Apesar de ser conhecida a participação do léxico do em expressões metafóricas, no Esqueleto evitamos indicar se estamos diante de usos literais ou não, categorizando as palavras do segundo sua distribuição pelas diferentes categorias semânticas em que aparecem. A estratégia utilizada consistiu em, considerando a observação das ocorrências, criar subclasses que organizassem as palavras do humano por outros campos semânticos. A criação das subclasses buscava evitar uma classificação muito granular do sentido, o que além de levar a um imenso número de classes, poderia contribuir para uma maior discordância quanto ao conteúdo de cada classe. A tabela a seguir apresenta as categorias semânticas relacionadas ao léxico do humano que já foram estabelecidas no Esqueleto: Sema Exemplos :animal :centralidade :doenca balançou a cabeça; levantei as mãos para o céu ancas do animal; espinha de peixe seio da sociedade; coração do governo marcas de bexiga; pé de atleta
:faculdade :grupo :lugar :medida :movimento :opiniao :outros :parte :posicao :sentimento :vegetal olhos atentos; ideia na cabeça de jurados; coluna do exército na boca do caixa; ao pé da cidade 8.000 pés de altura; um de vantagem ir a pé; andar a pé desmiolado; linguarudo busto de bronze; língua portuguesa braço da cadeira; membro do partido de joelhos; em pé; de costas cabeça fria; coração apertado tronco da árvore; pé de cana Tabela 1: Classes semânticas do humano no Esqueleto Na documentação do projeto 1, além dos exemplos, encontram-se explicações para cada uma das classes. Trataremos aqui apenas de dois casos que consideramos mais interessantes ou que suscitaram maiores discussões ao longo do projeto. Sentimento x Opinião A identificação de opiniões em resenhas de livros na internet foi uma das motivações iniciais do Esqueleto, mas a questão em volta da categoria opinião, e se ela se enquadraria em uma classe distinta da de sentimento, foi debatida ao longo do projeto. O argumento principal a favor da unificação das duas categorias seria a dificuldade de dissociar um sentimento de uma opinião, ou seja, a impossibilidade de se emitir uma opinião desinteressada, ausente de sentimento. Optamos, no entanto, por manter a separação dos dois semas, com a diferença entre eles sendo a presença de posicionamento, de julgamento, no sema opinião. Vale ressaltar, no entanto, que a ausência de julgamento não implica ausência de polaridade, que ocorre nas duas categorias semânticas. Tanto as palavras que expressam opiniões [1-4] quanto as que expressam sentimentos [5-8] podem ser classificadas como positivas, negativas ou ambivalentes. 1. «Era um filantropo», acrescenta Betty McNeil, «um homem com um coração de ouro» (+) 2. Ele teve a cara de pau de fazer um espetáculo inteiro com um único ator imóvel. (-) 1 http://www.linguateca.pt/acesso/esqueleto/esqueleto.html
3. No mais, tirante a corrida, as batalhas navais e a etérea beleza de Betty Bronson como Virgem Maria, é osso duro de roer: teatral, arrastado, enfadonho. (-) 4. Quero avisá-los que sou um osso duro de roer e que não é com um pequeno empurrão que me abatem», avisou. (+) 5. Apenas Zélia conservou-se de cabeça fria e moral elevada. (+) (-) 6. Não se justifica que o profissional cometa desatinos por estar com a cabeça quente. 7. Mas se eu sentir um frio na barriga na hora vou achar ótimo. (+) 8. Quinze dias depois, já livre daquele peso terrível, daquele frio na barriga, associado ao medo e à sensação de morte eminente. (-) Lugar x Centralidade A categoria centralidade é mais recente entre todas do Esqueleto. Ela foi criada principalmente para dar conta de casos que envolvem determinadas acepções das palavras coração e seio que geralmente transmitem a ideia de lugar [9-10]. Algumas ocorrências desses vocábulos, no entanto, claramente não se encaixam nessa classe semântica [11-12], e sua frequência de uso nos ra do AC/DC foi suficientemente alta para justificar a criação de um novo sema. 9. [ ] as aves refugiavam-se no seio embalsamado da floresta. 10. Bem no coração da floresta amazônica, a cidade é realmente uma bolha. 11. O PFL ganha certamente mais espaço no coração do governo. 12. As tensões sociais existentes no seio da comunidade refletiam-se nos casos que envolviam práticas mágicas condenadas pelas autoridades eclesiásticas. Os exemplos [11-12], em vez de passarem a noção de lugar, se referem a uma dimensão de importância, de centralidade, que não necessariamente implica um aspecto espacial. Por isso, optamos por criar um novo sema, centralidade, que abrangesse essas ocorrências de coração e seio, sem, porém, limitar-se a elas, como podemos observar em [13-14]. 13. O presumível cérebro da operação, e dois outros membros do «gang», continuam a ser procurados pela polícia. 14. O eurocentrismo que pensou que era o umbigo do mundo vai ter que se sacudir. É possível ainda quem uma mesma palavra comporte mais de uma classificação simultaneamente; nesses casos, todas as alternativas são admitidas e o vocábulo é etiquetado com dois ou mais semas, como em [15] (lugar e centralidade) e [16] (lugar e parte).
:xxx :xxx :xxx :xxx Departamento de Letras 15. O gigantismo do Kremlin, o quase milenar coração do poder na velha e na nova Rússia, levou Fernando Henrique a uma reflexão sobre o poder e a humildade. 16. O espetáculo de magia começa antes da entrada na caverna, por causa do ribeirão das Ostras, que começa a descer o relevo acidentado entrando pela boca da caverna. 5. Resultados e Conclusões O projeto Esqueleto mostra como o uso de ra pode enriquecer a área dos estudos linguísticos, oferecendo uma variedade de exemplos da língua em seu uso real para os mais diversos tipos de análise. No Obras, por exemplo, percebemos que boa parte da caracterização psicológica dos personagens se dá por meio de referência ao, como os olhos (maliciosos, ansiosos, desvairados, inexperientes, luxuriosos, inteligentes etc.) Revisamos dois ra com características bastante distintas, entrevistas pessoais (Museu da Pessoa, 1.421.677 palavras e 93.479 frases) e obras literárias (OBras, 1.204.436 palavras e 38.011 frases). Considerando a análise integral dos dois ra e a análise parcial dos demais ra do AC/DC, podemos responder à pergunta que outros tipos de sentido atribuímos às palavras que compõem o léxico do?" apresentando 13 categorias semânticas estáveis, além de e outros: : animal, centralidade, doença, faculdade, grupo, lugar, medida, movimento, opinião, parte, posição, sentimento e vegetal. Na documentação do projeto encontram-se explicações e exemplos para cada uma das classes. No gráfico 1 vemos a distribuição dos sentidos do nos ra, contrastando os sentidos rais dos demais (indicados por :xxx) e comparando o material integralmente revisto (Obras e MP) e material parcialmente revisto (corpus Floresta e Todos). É interessante notar a constância da proporção /:xxx, com cerca de 85% de palavras do para usos rais. A exceção é o MP, onde a distribuição /:xxx é equilibrada, com 50% das ocorrências para cada um dos usos. Considerando apenas o material completamente revisto, temos dois cenários bastante distintos. No OBras, apenas 15% das palavras do não se vincula ao, o que corrobora a ideia de forte presença de descrição nos textos literários analisados. Já no Museu da Pessoa a situação é bem diferente: apenas metade das palavras do se refere ao. 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% OBRAS MP Floresta Todos Gráfico 1: Distribuição dos tipos de sentido das palavras do por corpus O gráfico 2 apresenta a distribuição dos semas :xxx (pelo total de semas :xxx) considerando apenas o material totalmente revisto. Considerando apenas o OBras, vemos que o sentido mais frequente é o de sentimento impulsionado pelos usos de coração seguido de outros e de posição, este último também típico de descrições.
[sema=".*vegetal.*"] [sema=".*sentimento.*"] [sema=".*posicao.*"] [sema=".*partede.*"] [sema=".*outros.*"] [sema=".*opiniao.*"] [sema=".*movimento.*"] [sema=".*medida.*"] [sema=".*lugar.*"] [sema=".*grupo.*"] [sema=".*faculdade.*"] [sema=".*doenca.*"] [sema=".*centralidade.*"] [sema=".*animal.*"] MP OBRAS 0,00% 10,00% 20,00% 30,00% 40,00% 50,00% 60,00% Gráfico 2: Distribuição dos semas :xxx no OBras e Museu da Pessoa Chamou-nos a atenção o relativamente frequente uso de :vegetal no OBras, e percebemos que a imensa maioria refere-se à palavra tronco. No entanto, dessas, boa parte se refere ao tronco em que os escravos eram castigados, o que aparece em obras como "Escrava Isaura", "O Mulato" e "O Cortiço". No Museu da Pessoa, o uso mais frequente é [sema=":outros"], seguido de [sema=":faculdade"]; [sema=":movimento"] e [sema=":sentimento"]. No quadro 1, em uma abordagem qualitativa, apresentamos os lemas que tomam parte em alguns dos semas :xxx. Para o quadro, consideramos o material do OBras, MP e também o do corpus Floresta. Como é possível observar, há palavras do especialmente maleáveis quanto ao sentido, que participam de todos os semas (ou quase todos), como pé, boca e mão. No quadro, os lemas estão listados por ordem alfabética, e não por frequência. É importante notar também que, no quadro, estamos considerando apenas os lemas, dissociados das expressões de que fazem parte. Assim, por exemplo, dente integra a expressão com u- nhas e dentes. A ideia do quadro é tão somente apresentar a variedade de palavras do utilizada nos diferentes sentidos e é interessante perceber que a ideia de importância/centralidade, que normalmente associaríamos apenas a cabeça/cérebro, também pode estar associada ao coração que normalmente associaríamos apenas ao sentimento e ao umbigo. Os resultados o ra anotado para a consulta, léxicos e regras bem com toda a documentação estão públicos e disponíveis (pela interface de pesquisa AC/DC ou pela página http://www.linguateca.pt/acesso/esqueleto/) para aqueles interessados em investigar a distribuição e ocorrências em contexto das palavras do léxico do na língua portuguesa.
SEMA LEMAS [sema=".*centralidade.*"] [sema=".*faculdade.*"] [sema=".*lugar.*"] [sema=".*movimento.*"] [sema=".*opiniao.*"] [sema=".*parte.*"] [sema=".*posicao.*"] [sema=".*sentimento.*"] [sema=".*outros.*"] 2 cabeça; coração; cérebro; regaço; seio; umbigo boca; cabeça; coração; cérebro; língua; mão; nervo; olho; pulmão; orelha; ouvido boca; coração; costas; estômago; face; fronte; olho; pé; seio pé boca; barriga; cabeça;cara; coração; cotovelo, desmiolado; estômago; língua; mão; nervo; olho; osso; pé; saco boca; braço; cabeça; ; costas; dente; dorso; espádua; goela; membro; olho; peito; perna; punho; pé; seio braço; cabeça; cara; costas; face; ilharga; joelho; punho; pé; punho barriga; boca; cabelo; cabeça; cara; coração; ; costas; cotovelo; dedo; dente; estômago; garganta; mão; nariz; nervo; olho; ombro; orelha; ouvido; peito; pele; pé; queixo; sangue; sobrolho; tripa; tropinha; unha; venta artéria; barriga; boca; braço; busto; cabeça; cara; carne; celular; coração; ; costas; célula; dedo; dente; embrionário; embrião; esqueleto; face; franja; língua; manual; mão; olho; osso; ouvido; palma; peito; perna; pulso; pé; rabo; sangue; seio; tronco; umbigo; unha; veia Quadro 1: Lista de lemas por semas considerando apenas OBras, MP e Floresta Referências 1- ARROJO, R. O Signo Desconstruído. 2.ed. Campinas: Pontes, 2003. 2- ELLIS, J. M. Language, Thought and Logic. Evanston, IL: Northwestern University Press. 1993. 3 - FREITAS, C.; MOTTA, E.; MILIDIÚ, R. L.; CÉSAR, J. Sparkling Vampire... lol! Annotating Opinions in a Book Review Corpus. In: ALUÍSIO, Sandra & TAGNIN, Stella E. O. (Orgs.). New Language Technologies and Linguistic Research: A Two-Way Road. UK: Cambridge Scholars Publishing, 2014, p. 128-146. 4- GARSIDE, R.,; LEECH, G.; & MCENERY, T. Corpus Annotation: Linguistic Information from Computer Text Corpora. London: Longman, 1997. 5 - SPÄRCK-JONES, Karen (2007). Computational linguistics: what about the linguistics?. Computational Linguistics, Volume 33, n. 3, p.437-441. 2007 2 Como ilustração, e considerando a variedade de lemas em cada corpus consideramos apenas as 25 primeiras ocorrências de cada corpus, sugerindo ao leitor interessado repetir a busca.