ESQUELETO UM ESTUDO SOBRE O LÉXICO DO CORPO HUMANO

Documentos relacionados
Os desafios do Bradesco nas redes sociais

RESUMO RESENHA E RIO. LIP - Profa. KATIUSCIA

Cuidados com o corpo

TAM: o espírito de servir no SAC 2.0

Gestão da Informação e do Conhecimento

Imagem de Tipos de Carnes do Ponto de Vista do Consumidor

Roteiro VcPodMais#005

Lucas Liberato Coaching Coach de Inteligência Emocional lucasliberato.com.br

A Tua Frase Poderosa. Coaches Com Clientes: Carisma. Joana Areias e José Fonseca

Atividade: Leitura e interpretação de texto. Português- 8º ano professora: Silvia Zanutto

Análise e Desenvolvimento de Sistemas ADS Programação Orientada a Obejeto POO 3º Semestre AULA 03 - INTRODUÇÃO À PROGRAMAÇÃO ORIENTADA A OBJETO (POO)


Sugestão de Roteiro para Elaboração de Monografia de TCC

Desvios de redações efetuadas por alunos do Ensino Médio

O papel do CRM no sucesso comercial

COMO PARTICIPAR EM UMA RODADA DE NEGÓCIOS: Sugestões para as comunidades e associações

10 simples passos que irão mudar a forma como você tira fotos

A Fórmula Mágica Para Escrever Artigos! Ela Sempre Funciona! Por Junior Resende

Há 4 anos. 1. Que dificuldades encontra no seu trabalho com os idosos no seu dia-a-dia?

Pedro e Lucas estão sendo tratados com. Profilaxia

Prof. Raul Sidnei Wazlawick UFSC-CTC-INE. Fonte: Análise e Projeto de Sistemas de Informação Orientados a Objetos, 2ª Edição, Elsevier, 2010.

uma representação sintética do texto que será resumido

Como escrever melhor em 5 passos simples

Abaixo você conhecerá algumas técnicas de SEO utilizadas para obter grande sucesso com as postagens no WordPress.


Ler em família: viagens partilhadas (com a escola?)

Unidade IV Ciência: O homem na construção do conhecimento Aula 34.1 Conteúdo: Artigo de divulgação científica.

SocialDB Social Digital Library

Diminua seu tempo total de treino e queime mais gordura

Inteligência em. redes sociais. corporativas. Como usar as redes internas de forma estratégica

Apresentação. Práticas Pedagógicas Língua Portuguesa. Situação 4 HQ. Recomendada para 7a/8a ou EM. Tempo previsto: 4 aulas

Ana Beatriz Bronzoni

2 Diagrama de Caso de Uso

CENÁRIO BRASILEIRO DO MARKETING RELACIONADO A CAUSAS Atitudes e comportamento do consumidor

Homens. Inteligentes. Manifesto

Personagens no Autodesk Sketchbook Pro

REALIDADE AUMENTADA APLICADA NA EDUCAÇÃO: ESTUDOS DOS SEUS BENEFÍCIOS

1 Introdução. 1.1 Apresentação do tema

Orientação a Objetos

Marketing Turístico e Hoteleiro

OBSERVATÓRIO DE GESTÃO DA INFORMAÇÃO. Palavras-chave: Gestão da Informação. Gestão do conhecimento. OGI. Google alertas. Biblioteconomia.

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios

Estudo de Caso. Cliente: Rafael Marques. Coach: Rodrigo Santiago. Duração do processo: 12 meses

Presidência da República Casa Civil Secretaria de Administração Diretoria de Gestão de Pessoas Coordenação Geral de Documentação e Informação

Duração: Aproximadamente um mês. O tempo é flexível diante do perfil de cada turma.

9 Como o aluno (pré)adolescente vê o livro didático de inglês

Aula 1 Introdução a Trabalho de Conclusão de Curso

Liberdade e Autonomia no Estudo

OCOMON PRIMEIROS PASSOS

FACULDADE EÇA DE QUEIROS. Edna Cristina do Nascimento. Marineide Gonçalves. Tâmara de Oliveira PROJETO PEDAGÓGICO JANDIRA

MÓDULO 5 O SENSO COMUM

No E-book anterior 5 PASSOS PARA MUDAR SUA HISTÓRIA, foi passado. alguns exercícios onde é realizada uma análise da sua situação atual para

Dia_Logos. café teatral

Ordem dos Advogados do Brasil. Exame da Ordem

Introdução. 1. Introdução

Técnicas de coleta de dados e instrumentos de pesquisa

Exercícios Complementares Língua Portuguesa Profª Ana Paula de Melo. Hora de brincar!

ISO/IEC 12207: Gerência de Configuração

como a arte pode mudar a vida?

DESENGANO CENA 01 - CASA DA GAROTA - INT. QUARTO DIA

20 perguntas para descobrir como APRENDER MELHOR

ADMINISTRAÇÃO GERAL MOTIVAÇÃO

PROJETO PEDAGÓGICO 1

Problemas em vender? Veja algumas dicas rápidas e práticas para aumentar suas vendas usando marketing

Caros amigos e alunos, este espaço destaquei para que vocês possam perceber alguns testes em relação ao autoconhecimento, inteligência, autoestima,

PROJETO O AR EXISTE? PICININ, Maria Érica ericapicinin@ig.com.br. Resumo. Introdução. Objetivos

Como fazer. networking. Um guia prático e fácil para um networking efetivo.

O céu. Aquela semana tinha sido uma trabalheira!

APÊNDICE. Planejando a mudança. O kit correto

Você é comprometido?

ENTREVISTA. COM o Dr. Rildo Cosson. POR Begma Tavares Barbosa* begma@acessa.com

OS CUIDADOS PALIATIVOS EM PORTUGAL. Resultados Quantitativos

PROVA BIMESTRAL Língua portuguesa

Estratégias em Propaganda e Comunicação

REFORMULAÇÃO SITE ARCA BRASIL

Aula 05 - Compromissos

Empresário. Você curte moda? Gosta de cozinhar? Não existe sorte nos negócios. Há apenas esforço, determinação, e mais esforço.

2015 O ANO DE COLHER ABRIL - 1 A RUA E O CAMINHO

Introdução! 1. Modelos de Domínio! 1. Identificação de classes conceituais! 2. Estratégia para identificar classes conceituais! 2

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software

Fundamentos de Sistemas de Informação Sistemas de Informação

[Ano] Língua Portuguesa. Campus Virtual Cruzeiro do Sul

QUE ESCOLA QUEREMOS PARA AS NOSSAS CRIANÇAS?

GRÁFICOS Exemplos de jogos 2D (com simulação do 3D)

TUTORIAL DO ALUNO. Olá, bem vindo à plataforma de cursos a distância da Uniapae!!!

SEU INGLÊS ESTÁ PRONTO PARA O CANADÁ?

Autor: Marcelo Maia

Um espaço colaborativo de formação continuada de professores de Matemática: Reflexões acerca de atividades com o GeoGebra

Diferentes padrões para uma mesma medida.

10 DICAS PARA USAR AS REDES SOCIAIS SEM PREJUDICAR O SEU NEGÓCIO

Gerenciamento de Riscos do Projeto Eventos Adversos

GERENCIAMENTO DE ESTOQUE NA FARMÁCIA

PORTUGUÊS 2 o BIMESTRE

ROTEIRO PARA ELABORAÇÃO DE PROJETOS

ALFABETIZAÇÃO DE ESTUDANTES SURDOS: UMA ANÁLISE DE ATIVIDADES DO ENSINO REGULAR

Produtividade e qualidade de vida - Cresça 10x mais rápido


Planejamento - 7. Planejamento do Gerenciamento do Risco Identificação dos riscos. Mauricio Lyra, PMP

Transcrição:

ESQUELETO UM ESTUDO SOBRE O LÉXICO DO CORPO HUMANO Aluno: Bruno Carriço de Azevedo Orientador: Cláudia Freitas 1. Introdução O projeto Esqueleto tem como objetivo a investigação do léxico do humano em grandes ra e subordina-se ao objetivo mais amplo de melhoria de recursos linguísticos para o processamento automático da língua portuguesa. A motivação inicial vem da estreita relação entre as palavras do e a expressão de emoções e sentimentos especificamente de Freitas et al.(2014), quando se verificou, na análise de resenhas de livros, a grande presença de expressões de opinião vinculadas ao. Investigar as palavras do humano, portanto, contribui para um levantamento de pistas lexicais que devem ser consideradas por sistemas interessados em detectar opinião em textos, ao mesmo tempo em que contribui também para a descrição de como expressamos opinião em português. O estudo acontece por meio da exploração, análise e anotação dos ra do projeto AC/DC (http://www.linguateca.pt/acdc), hoje com mais de 1 bilhão de palavras. A anotação semântica é feita de maneira semiautomática. Além do tamanho e variedade, escolhemos trabalhar com o AC/DC devido ao seu livre acesso. Assim, tudo o que estamos fazendo está público e disponível. O projeto vem sendo executado na Linguateca através de como uma colaboração entre a PUC-Rio e a Universidade de Oslo. 2. Objetivos O Esqueleto procura responder principalmente as duas seguintes perguntas: (i) como nos referimos ao / partes do em português?; (ii) que outros tipos de sentido atribuímos às palavras que compõem o léxico do? A partir daí estabelecemos a distinção entre os usos físicos e os não físicos do vocabulário relacionado ao humano, enquadrando-os em categorias semânticas que foram sendo criadas ao longo da análise e anotação dos ra do AC/DC. Os dados obtidos pelo projeto podem ser utilizados não apenas para estudar aspectos linguísticos e culturais como descrição da língua, análise de sentimento e opinião, estudos literários, etc. como para desenvolver aplicações práticas de processamento automático da linguagem, ferramentas de tradução, etc. 3. A Escolha do Material e o Processo de Anotação A popularização dos computadores pessoais, do acesso a internet e da digitalização de documentos aumentou de maneira considerável o volume de textos disponíveis para os mais variados tipos de análise; no entanto, esses dados são de uso limitado se não passarem por um processo de anotação, seja ela semiautomática ou manual. O projeto Esqueleto consiste, principalmente, na anotação dos ra do AC/DC e posterior análise dos dados obtidos e gerados pelo processo. O processo de anotação é semi-automático, utilizando uma ferramenta desenvolvida para este tipo de atividade. As regras são linguisticamente motivadas, e tiramos proveito da informação semântica e morfossintática previamente existente, já incluída no corpus pelo analisador sintático PALAVRAS. Em termos gerais, o processo parte de um léxico inicial (no

nosso caso, uma lista com palavras do humano, que pode conter palavras simples como pé ou expressões como batata da perna e céu da boca ) que é aplicado às palavras do corpus, anotando-as como palavras relativas ao humano. Em seguida, por meio da análise das palavras inicialmente anotadas, são criadas regras de especialização ou de eliminação, para corrigir casos como umbigo do mundo, que receberá uma etiqueta semântica específica, e coluna social, em que coluna será desconsiderada como palavra do. Até agora, dois ra foram integralmente revistos no Esqueleto: o Museu da Pessoa, composto por entrevistas orais transcritas, com 1,4 milhão de palavras, e o OBras, uma coleção de 25 obras da literatura brasileira do final do século XIX e início do século XX, com 1,2 milhão de palavras. Acreditamos que, por serem materiais de características tão distintas (literatura e fala), esses textos oferecem a oportunidade de estudar uma ampla gama de aspectos da língua portuguesa. O trabalho de revisão da anotação consiste em realizar buscas específicas nos ra do AC/DC e rever, caso a caso, se os resultados retornados pelas buscas se encaixam adequadamente na categoria semântica procurada. Quando é encontrado algum erro escrevese uma regra para corrigí-lo, mudando a palavra ou expressão em questão para a classe semântica correta. É um processo demorado e trabalhoso, mas alguns de seus benefícios, para o anotador, podem ser percebidos após pouco tempo, como uma maior proximidade no contato com a língua, a possibilidade de testar hipóteses com ocorrências do uso real da língua. 4. As Classes Semânticas do Esqueleto O primeiro passo no processo de anotação semântica do léxico do humano foi estabelecer uma lista abrangente com palavras ou expressões que formem esse léxico, como braço, coração, palma da mão ou céu da boca. Essa etapa, a princípio uma das mais simples do projeto, ainda assim pode levantar questões dignas de serem consideradas, como até onde vão os limites do humano: algumas culturas, por exemplo, consideram a sombra como parte integrante do, o que pode nos parecer estranho. Depois de estabelecida a lista inicial do léxico do humano em português, podemos começar a observar quando as palavras se referem ao e quando elas irão se encaixar em outros campos semânticos. Apesar de ser conhecida a participação do léxico do em expressões metafóricas, no Esqueleto evitamos indicar se estamos diante de usos literais ou não, categorizando as palavras do segundo sua distribuição pelas diferentes categorias semânticas em que aparecem. A estratégia utilizada consistiu em, considerando a observação das ocorrências, criar subclasses que organizassem as palavras do humano por outros campos semânticos. A criação das subclasses buscava evitar uma classificação muito granular do sentido, o que além de levar a um imenso número de classes, poderia contribuir para uma maior discordância quanto ao conteúdo de cada classe. A tabela a seguir apresenta as categorias semânticas relacionadas ao léxico do humano que já foram estabelecidas no Esqueleto: Sema Exemplos :animal :centralidade :doenca balançou a cabeça; levantei as mãos para o céu ancas do animal; espinha de peixe seio da sociedade; coração do governo marcas de bexiga; pé de atleta

:faculdade :grupo :lugar :medida :movimento :opiniao :outros :parte :posicao :sentimento :vegetal olhos atentos; ideia na cabeça de jurados; coluna do exército na boca do caixa; ao pé da cidade 8.000 pés de altura; um de vantagem ir a pé; andar a pé desmiolado; linguarudo busto de bronze; língua portuguesa braço da cadeira; membro do partido de joelhos; em pé; de costas cabeça fria; coração apertado tronco da árvore; pé de cana Tabela 1: Classes semânticas do humano no Esqueleto Na documentação do projeto 1, além dos exemplos, encontram-se explicações para cada uma das classes. Trataremos aqui apenas de dois casos que consideramos mais interessantes ou que suscitaram maiores discussões ao longo do projeto. Sentimento x Opinião A identificação de opiniões em resenhas de livros na internet foi uma das motivações iniciais do Esqueleto, mas a questão em volta da categoria opinião, e se ela se enquadraria em uma classe distinta da de sentimento, foi debatida ao longo do projeto. O argumento principal a favor da unificação das duas categorias seria a dificuldade de dissociar um sentimento de uma opinião, ou seja, a impossibilidade de se emitir uma opinião desinteressada, ausente de sentimento. Optamos, no entanto, por manter a separação dos dois semas, com a diferença entre eles sendo a presença de posicionamento, de julgamento, no sema opinião. Vale ressaltar, no entanto, que a ausência de julgamento não implica ausência de polaridade, que ocorre nas duas categorias semânticas. Tanto as palavras que expressam opiniões [1-4] quanto as que expressam sentimentos [5-8] podem ser classificadas como positivas, negativas ou ambivalentes. 1. «Era um filantropo», acrescenta Betty McNeil, «um homem com um coração de ouro» (+) 2. Ele teve a cara de pau de fazer um espetáculo inteiro com um único ator imóvel. (-) 1 http://www.linguateca.pt/acesso/esqueleto/esqueleto.html

3. No mais, tirante a corrida, as batalhas navais e a etérea beleza de Betty Bronson como Virgem Maria, é osso duro de roer: teatral, arrastado, enfadonho. (-) 4. Quero avisá-los que sou um osso duro de roer e que não é com um pequeno empurrão que me abatem», avisou. (+) 5. Apenas Zélia conservou-se de cabeça fria e moral elevada. (+) (-) 6. Não se justifica que o profissional cometa desatinos por estar com a cabeça quente. 7. Mas se eu sentir um frio na barriga na hora vou achar ótimo. (+) 8. Quinze dias depois, já livre daquele peso terrível, daquele frio na barriga, associado ao medo e à sensação de morte eminente. (-) Lugar x Centralidade A categoria centralidade é mais recente entre todas do Esqueleto. Ela foi criada principalmente para dar conta de casos que envolvem determinadas acepções das palavras coração e seio que geralmente transmitem a ideia de lugar [9-10]. Algumas ocorrências desses vocábulos, no entanto, claramente não se encaixam nessa classe semântica [11-12], e sua frequência de uso nos ra do AC/DC foi suficientemente alta para justificar a criação de um novo sema. 9. [ ] as aves refugiavam-se no seio embalsamado da floresta. 10. Bem no coração da floresta amazônica, a cidade é realmente uma bolha. 11. O PFL ganha certamente mais espaço no coração do governo. 12. As tensões sociais existentes no seio da comunidade refletiam-se nos casos que envolviam práticas mágicas condenadas pelas autoridades eclesiásticas. Os exemplos [11-12], em vez de passarem a noção de lugar, se referem a uma dimensão de importância, de centralidade, que não necessariamente implica um aspecto espacial. Por isso, optamos por criar um novo sema, centralidade, que abrangesse essas ocorrências de coração e seio, sem, porém, limitar-se a elas, como podemos observar em [13-14]. 13. O presumível cérebro da operação, e dois outros membros do «gang», continuam a ser procurados pela polícia. 14. O eurocentrismo que pensou que era o umbigo do mundo vai ter que se sacudir. É possível ainda quem uma mesma palavra comporte mais de uma classificação simultaneamente; nesses casos, todas as alternativas são admitidas e o vocábulo é etiquetado com dois ou mais semas, como em [15] (lugar e centralidade) e [16] (lugar e parte).

:xxx :xxx :xxx :xxx Departamento de Letras 15. O gigantismo do Kremlin, o quase milenar coração do poder na velha e na nova Rússia, levou Fernando Henrique a uma reflexão sobre o poder e a humildade. 16. O espetáculo de magia começa antes da entrada na caverna, por causa do ribeirão das Ostras, que começa a descer o relevo acidentado entrando pela boca da caverna. 5. Resultados e Conclusões O projeto Esqueleto mostra como o uso de ra pode enriquecer a área dos estudos linguísticos, oferecendo uma variedade de exemplos da língua em seu uso real para os mais diversos tipos de análise. No Obras, por exemplo, percebemos que boa parte da caracterização psicológica dos personagens se dá por meio de referência ao, como os olhos (maliciosos, ansiosos, desvairados, inexperientes, luxuriosos, inteligentes etc.) Revisamos dois ra com características bastante distintas, entrevistas pessoais (Museu da Pessoa, 1.421.677 palavras e 93.479 frases) e obras literárias (OBras, 1.204.436 palavras e 38.011 frases). Considerando a análise integral dos dois ra e a análise parcial dos demais ra do AC/DC, podemos responder à pergunta que outros tipos de sentido atribuímos às palavras que compõem o léxico do?" apresentando 13 categorias semânticas estáveis, além de e outros: : animal, centralidade, doença, faculdade, grupo, lugar, medida, movimento, opinião, parte, posição, sentimento e vegetal. Na documentação do projeto encontram-se explicações e exemplos para cada uma das classes. No gráfico 1 vemos a distribuição dos sentidos do nos ra, contrastando os sentidos rais dos demais (indicados por :xxx) e comparando o material integralmente revisto (Obras e MP) e material parcialmente revisto (corpus Floresta e Todos). É interessante notar a constância da proporção /:xxx, com cerca de 85% de palavras do para usos rais. A exceção é o MP, onde a distribuição /:xxx é equilibrada, com 50% das ocorrências para cada um dos usos. Considerando apenas o material completamente revisto, temos dois cenários bastante distintos. No OBras, apenas 15% das palavras do não se vincula ao, o que corrobora a ideia de forte presença de descrição nos textos literários analisados. Já no Museu da Pessoa a situação é bem diferente: apenas metade das palavras do se refere ao. 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% OBRAS MP Floresta Todos Gráfico 1: Distribuição dos tipos de sentido das palavras do por corpus O gráfico 2 apresenta a distribuição dos semas :xxx (pelo total de semas :xxx) considerando apenas o material totalmente revisto. Considerando apenas o OBras, vemos que o sentido mais frequente é o de sentimento impulsionado pelos usos de coração seguido de outros e de posição, este último também típico de descrições.

[sema=".*vegetal.*"] [sema=".*sentimento.*"] [sema=".*posicao.*"] [sema=".*partede.*"] [sema=".*outros.*"] [sema=".*opiniao.*"] [sema=".*movimento.*"] [sema=".*medida.*"] [sema=".*lugar.*"] [sema=".*grupo.*"] [sema=".*faculdade.*"] [sema=".*doenca.*"] [sema=".*centralidade.*"] [sema=".*animal.*"] MP OBRAS 0,00% 10,00% 20,00% 30,00% 40,00% 50,00% 60,00% Gráfico 2: Distribuição dos semas :xxx no OBras e Museu da Pessoa Chamou-nos a atenção o relativamente frequente uso de :vegetal no OBras, e percebemos que a imensa maioria refere-se à palavra tronco. No entanto, dessas, boa parte se refere ao tronco em que os escravos eram castigados, o que aparece em obras como "Escrava Isaura", "O Mulato" e "O Cortiço". No Museu da Pessoa, o uso mais frequente é [sema=":outros"], seguido de [sema=":faculdade"]; [sema=":movimento"] e [sema=":sentimento"]. No quadro 1, em uma abordagem qualitativa, apresentamos os lemas que tomam parte em alguns dos semas :xxx. Para o quadro, consideramos o material do OBras, MP e também o do corpus Floresta. Como é possível observar, há palavras do especialmente maleáveis quanto ao sentido, que participam de todos os semas (ou quase todos), como pé, boca e mão. No quadro, os lemas estão listados por ordem alfabética, e não por frequência. É importante notar também que, no quadro, estamos considerando apenas os lemas, dissociados das expressões de que fazem parte. Assim, por exemplo, dente integra a expressão com u- nhas e dentes. A ideia do quadro é tão somente apresentar a variedade de palavras do utilizada nos diferentes sentidos e é interessante perceber que a ideia de importância/centralidade, que normalmente associaríamos apenas a cabeça/cérebro, também pode estar associada ao coração que normalmente associaríamos apenas ao sentimento e ao umbigo. Os resultados o ra anotado para a consulta, léxicos e regras bem com toda a documentação estão públicos e disponíveis (pela interface de pesquisa AC/DC ou pela página http://www.linguateca.pt/acesso/esqueleto/) para aqueles interessados em investigar a distribuição e ocorrências em contexto das palavras do léxico do na língua portuguesa.

SEMA LEMAS [sema=".*centralidade.*"] [sema=".*faculdade.*"] [sema=".*lugar.*"] [sema=".*movimento.*"] [sema=".*opiniao.*"] [sema=".*parte.*"] [sema=".*posicao.*"] [sema=".*sentimento.*"] [sema=".*outros.*"] 2 cabeça; coração; cérebro; regaço; seio; umbigo boca; cabeça; coração; cérebro; língua; mão; nervo; olho; pulmão; orelha; ouvido boca; coração; costas; estômago; face; fronte; olho; pé; seio pé boca; barriga; cabeça;cara; coração; cotovelo, desmiolado; estômago; língua; mão; nervo; olho; osso; pé; saco boca; braço; cabeça; ; costas; dente; dorso; espádua; goela; membro; olho; peito; perna; punho; pé; seio braço; cabeça; cara; costas; face; ilharga; joelho; punho; pé; punho barriga; boca; cabelo; cabeça; cara; coração; ; costas; cotovelo; dedo; dente; estômago; garganta; mão; nariz; nervo; olho; ombro; orelha; ouvido; peito; pele; pé; queixo; sangue; sobrolho; tripa; tropinha; unha; venta artéria; barriga; boca; braço; busto; cabeça; cara; carne; celular; coração; ; costas; célula; dedo; dente; embrionário; embrião; esqueleto; face; franja; língua; manual; mão; olho; osso; ouvido; palma; peito; perna; pulso; pé; rabo; sangue; seio; tronco; umbigo; unha; veia Quadro 1: Lista de lemas por semas considerando apenas OBras, MP e Floresta Referências 1- ARROJO, R. O Signo Desconstruído. 2.ed. Campinas: Pontes, 2003. 2- ELLIS, J. M. Language, Thought and Logic. Evanston, IL: Northwestern University Press. 1993. 3 - FREITAS, C.; MOTTA, E.; MILIDIÚ, R. L.; CÉSAR, J. Sparkling Vampire... lol! Annotating Opinions in a Book Review Corpus. In: ALUÍSIO, Sandra & TAGNIN, Stella E. O. (Orgs.). New Language Technologies and Linguistic Research: A Two-Way Road. UK: Cambridge Scholars Publishing, 2014, p. 128-146. 4- GARSIDE, R.,; LEECH, G.; & MCENERY, T. Corpus Annotation: Linguistic Information from Computer Text Corpora. London: Longman, 1997. 5 - SPÄRCK-JONES, Karen (2007). Computational linguistics: what about the linguistics?. Computational Linguistics, Volume 33, n. 3, p.437-441. 2007 2 Como ilustração, e considerando a variedade de lemas em cada corpus consideramos apenas as 25 primeiras ocorrências de cada corpus, sugerindo ao leitor interessado repetir a busca.