EXTRAÇÃO DE REDES LÉXICO-SEMÂNTICAS DO PORTUGUÊS EM UM CORPUS DE TURISMO

Tamanho: px
Começar a partir da página:

Download "EXTRAÇÃO DE REDES LÉXICO-SEMÂNTICAS DO PORTUGUÊS EM UM CORPUS DE TURISMO"

Transcrição

1 Universidade Federal do ABC Pós-Graduação em Engenharia de Informação Dissertação de Mestrado Thiery Okuyama Silva Murakami EXTRAÇÃO DE REDES LÉXICO-SEMÂNTICAS DO PORTUGUÊS EM UM CORPUS DE TURISMO Santo André - SP 2011

2

3 Pós-Graduação em Engenharia de Informação Dissertação de Mestrado Thiery Okuyama Silva Murakami EXTRAÇÃO DE REDES LÉXICO-SEMÂNTICAS DO PORTUGUÊS EM UM CORPUS DE TURISMO Dissertação apresentada ao Curso de Pósgraduação da Universidade Federal do ABC, como requisito parcial para obtenção do grau de Mestre em Engenharia da Informação, sob orientação do Professor Doutor Profa. Dra. Margarethe Born Steinberger-Elias Santo André SP

4 Ficha catalográfica elaborada pelo Sistema de Bibliotecad da Universidade Federal do ABC MURAKAMI, Thiery Okuyama Silva. Extração de redes léxicos-semânticas do Português em um corpus de turismo / Thiery Okuyama Silva Murakami Santo André : Universidade Federal do ABC, fls. il. 29 cm Orientador: Margarethe Born Steinberg-Elias Dissertação (Mestrado) Universidade Federal do ABC, Programa de Pós-graduação em Engenharia da Informação, Lingüística de Corpus 2. Redes léxico-semântica 3. Português. I. STEINBERGER-

5

6 2011 Este exemplar foi revisado e alterado em relação à versão original, de acordo com as observações levantadas pela banca no dia da defesa, sob responsabilidade única do autor e com a anuência de seu orientador. Santo André, de de 20. Assinatura do autor: Assinatura do orientador:

7 Para meus filhos Naomi e Kenzo.

8 Agradecimentos À Universidade Federal do ABC pela oportunidade concedida À Profª Drª Margarethe Born Steinberger-Elias pela compreensão, carinho e dedicação no desenvolvimento desta pesquisa. Ao Prof. Dr. Alexei Veneziani por todas as horas dedicadas ao meu aprendizado na disciplina de Métodos Matemáticos. Ao Prof. Dr. Ysmar Vianna e Silva Filho e a Profa. Dra. Maria das Graças Bruno Marietto por tão gentilmente terem aceitado participar da banca de defesa deste trabalho. À minha família pelo carinho e pelo estímulo. À minha tia Sizuco pela compreensão e pelo seu amor incondicional. À minha mãe e irmã por todo apoio e compreensão Ao meu amor, Fabio pelo seu companheirismo por sua paciência nos momentos mais difíceis desta jornada. À grande amiga Denise Freire sempre ao meu lado em todos os momentos. À amiga Patrícia Dias dos Santos por toda ajuda dedica a este trabalho Ao amigo Rogério Dantas pelo auxílio e apoio dedicado a este trabalho A todos os docentes do Programa de Pós-graduação em Engenharia da Informação Agradeço esta Universidade UFABC pela concessão da bolsa de mestrado

9 Resumo O objetivo desta pesquisa é caracterizar modelos lingüísticos que possam ser usados como referência para a aplicação de tecnologias semânticas ao domínio do turismo latino-americano, tais como sistemas de consulta de viagens e sistemas de recomendação de destinos. No campo do Turismo, as opções automatizadas de comunicação com o usuário geralmente privilegiam informações sobre hospedagem e traslado, só muito raramente oferecem informações sobre destinos turísticos. Esta pesquisa investiga modelos lingüísticos que possam ser usados para construir representações semânticas de destinos na América Latina. Adota-se a hipótese de que a especificidade da linguagem do turismo pode ser revelada com base em um conceito geral estatístico de co-ocorrência, segundo o qual palavras com significados similares tendem a ocorrer em contextos similares. O estudo identifica três modelos lingüísticos que permitem melhor compreender os conceitos de similaridade e afinidade semântica entre as palavras que emergem dessas aplicações estatísticas. O primeiro é o da Semiótica do Turismo, que permite categorizar áreas geográficas e explorar seu significado como espaço turístico representado por uma rede de signos. O segundo é o da Ontologia do Turismo, baseado em uma abordagem cognitiva de redes semânticas compostas por nós lexicais que funcionam como descritores de destinos turísticos. E o terceiro explora a possibilidade de construir léxicos computacionais do Turismo através de métodos e técnicas de processamento de texto baseados em Lingüística de Corpus. Cada um dos três modelos contribuiu para explicar como representações semânticas de cenários turísticos podem ser produzidas. A pesquisa teórica foi complementada por experimentação empírica com base em um corpus de textos jornalísticos sobre destinos turísticos latino-americanos. Os textos foram acessados através da base Folha.com do jornal Folha de S.Paulo no período de 09/01/2001 a 26/08/2010. De início, foram selecionados textos, com um total de palavras. Posteriormente a amostra foi reduzida para textos, compondo um corpus de estudo com palavras, dividido em onze sub-corpora identificados pelos nomes de destino. O material recebeu tratamento estatístico e etiquetagem semântica de modo a permitir extrair redes de co-ocorrência lexical baseadas em relações de similaridade e afinidade semântica. A extração das redes revelou-se um modo eficiente de representar o conteúdo semântico de textos, embora não se tenha podido identificar um repertório lexical específico de destinos latino-americanos. O uso de recursos computacionais garantiu acesso a um volume significativo de informação semântica, mas a caracterização de relações de afinidade ainda depende de fundamentos mais sólidos, eventualmente numa abordagem integrada dos três modelos aqui apresentados semiótico, cognitivo, estatístico. Descritores:Lingüística de Corpus, redes léxico-semânticas,turismo, Português.

10 Abstract This research aims to characterize linguistic models that can be used as a reference for the application of semantic technologies to the field of tourism in Latin America, such as travel consultation systems and recommender systems. In the field of tourism, the automated options for communication with the user generally favor information about lodging and transportation, rarely provide information about tourist destinations. This research investigates linguistic models that can be used to build semantic representations of destinations in Latin America. We adopt the hypothesis that the specificity of language of tourism can be revealed based on a general concept of statistical co-occurrence, according to which words with similar meanings tend to occur in similar contexts. The study identifies three linguistic models that allow better understanding of the concepts of semantic similarity and affinity between the words that emerge from such statistical applications. The first is the Semiotics of Tourism, which allows you to categorize geographic areas and explore its meaning as a tourist space represented by a network of signs. The second is the Ontology of Tourism, based on a cognitive approach to semantic networks composed of lexical nodes that act as descriptors of tourist destinations. And the third explores the possibility of building computational lexicons of Tourism through methods and techniques for text processing based on Corpus Linguistics. Each of the three models contributed to explain how semantic representations of tourist scenarios can be produced. The theoretical research was complemented by empirical experimentation based on a corpus of newspaper articles about destinations in Latin America. The texts were accessed through the base Folha.com of the newspaper Folha de S. Paulo in the period from 09/01/2001 to 26/08/2010. Initially, we selected 2,484 texts, with a total of 1,266,559 words. Subsequently the sample was reduced to 1,711 texts, composing a corpus study of 883,210 words, divided into eleven sub-corpora identified by the names of destination. The material was treated statistically and tagged semantically in a way to allow extraction of lexical co-occurrence networks based on relations of semantic similarity and affinity. The extraction of networks has proved an efficient way to represent the semantic content of texts, although we have not been able to identify a specific lexical range for Latin American destinations. The use of computational resources granted access to a significant amount of semantic information, but the characterization of affinity relationships still depends on more solid foundations, possibly on an integrated approach of the three models presented here - semiotic, cognitive, statistical. Keyword: Corpus linguistics, lexical-semantic networks, tourism, Portuguese

11 Lista de Ilustrações Figura 1. Triângulo Semiótico Figura 2 Categorização de ontologias Figura 3 Índice Geral de notícias Figura 4 Links das notícias Figura 5 Diretório da pesquisa Figura 6: Distribuição dos Textos nos 11 Destinos/Países-Região Figura 7: Distribuição de Frequência de Tokens e Types de 11 destinos Figura 8. Categorias Semânticas com Base na Freqüência Relativa dos 11 Destinos Figura 9: Distribuição das Categorias Semânticas de ARG em tokens e types 118 Figura 10: Distribuição de Categorias Semânticas de BOL em tokens e types 119 Figura 11: Distribuição de Categorias Semânticas de CAR em tokens e types 120 Figura 12: Distribuição de Categorias Semânticas do Destino CHI em tokens e types Figura 13: Distribuição das Categorias Semânticas de COL em tokens e types Figura 14: Distribuição das Categorias Semânticas de EQU em tokens e types Figura 15: Distribuição de Categorias Semânticas de MEX em tokens e types 124 Figura 16: Distribuição das Categorias Semânticas de PA em tokens e types. 125 Figura 17 Distribuição das Categorias Semânticas de Peru em tokens e types 125 Figura 18: Distribuição das Categorias Semânticas de URU em tokens e types Figura 19: Distribuição de Categorias de VEN em Relação a tokens e types Figura 20: Distribuição da categoria semântica Place em relação aos destinos Figura21:Distribuição da categoria semântica Concept em relação aos destinos

12 Figura 22: Distribuição da categoria semântica Action em relação aos destinos Figura 23 Distribuição da categoria semântica Human em relação aos destinos Figura24: Distribuição da categoria semântica Abstract em relação aos destinos Figura 25: Distribuição da categoria semântica State em relação aos destinos Figura 26: Distribuição da categoria semântica Collective em relação aos destinos Figura 27: Distribuição da categoria semântica Tool em relação aos destinos 133 Figura 28: Distribuição da categoria semântica Thing em relação aos destinos Figura 29: Distribuição da categoria semântica Time em relação aos destinos 133 Figura 30: Distribuição da categoria semântica Semantic em relação aos destinos Figura 31: Distribuição da categoria semântica Feature em relação aos destinos Figura 32: Distribuição da categoria semântica Anatomical em relação aos destinos Figura 33: Distribuição da categoria semântica Animal em relação aos destinos Figura 34: Distribuição da categoria semântica Food em relação aos destinos Figura 35: Distribuição da categoria semântica Substance em relação aos destinos Figura 36: Distribuição da categoria semântica Perception em relação aos destinos Figura 37: Distribuição da categoria semântica Vehicle em relação aos destinos Figura 38: Distribuição da categoria semântica Plant em relação aos destinos Figura 39: Distribuição da categoria semântica Weather em relação aos destinos

13 Figura 40: Visão da Rede dos Destinos Usando Métrica de Intermediação Figura 41: Grafo Categoria Weather (gw+) Figura 42 :Grafo Categoria Weather (gw-) Figura 43: Descrição das Categorias Semânticas de ARG em tokens e types Figura 44: Faixa de Freqüência da Categoria Food Figura 45: Representação da Rede Conceitual da Categoria Food (f-) Figura 46 Distribuição dos Pesos (f-) no Conteúdo Lexical de Food Figura 47: Representação da Rede Conceitual da Categoria Food (f+-) Figura 48: Distribuição de Pesos (f+-) no Conteúdo Lexical de Food Figura 49: Representação da rede conceitual da categoria Food (f+) Figura 50: Distribuição de pesos (f+) atribuídos ao conteúdo lexical de Food. 165 Figura 51 Rede Semântica de co-ocorrência da categoria Food com palavraschaves dos 11 destinos considerando 3 classes de freqüência Figura 52: Rede Semântica das Palavras-chave em Food nos 11 destinos Figura 53 Exemplo da tela de concordance

14 Lista de Quadros Quadro 1. Áreas de pesquisa em Tecnologia da Comunicação e Informação em Viagens e Turismo Quadro 2: Informações sobre a tela de palavras-chave Quadro 3 Léxico Latino Americano com Maior (+) Freqüência em Animal Quadro 4 - Descrição do Léxico Latino Americano com Menor (-) Freqüência em Relação à Categoria Semântica Animal Quadro 5: Descrição da concordância de palavras ambíguas Quadro 6. Palavras exclusivas do conjunto de palavras-chave dos destinos latino- americanos Quadro 7. Palavras exlusivas do conjunto de palavras-chave dos destinos latino- americanos

15 Lista de Tabelas Tabela 1: Títulos coletados durante o período 09/01/2001 até 26/08/ Tabela 2: Tela de função WordList freqüência do país Argentina Tabela 3: Tela de função KeyWords palavras-chave do país Argentina Tabela 4: Distribuição de Freqüência dos Corpora dos 31 Destinos Tabela 5: Distribuição da Freqüência Normalizada dos 11 Destinos Tabela 6. Palavras-chave do país Argentina, Bolívia e Caribe Tabela 7: Freqüência de Palavras-chave em Relação aos Destinos Tabela 8: Principais colocados da palavra Buenos Aires Tabela 9 :Clusters com Buenos Aires Tabela 10: Descrição das Categorias Semânticas em relação à freqüência absoluta e relativa dos tokens e types de ARG Tabela 11: Distribuição da Freqüência Absoluta e Relativa da Argentina (c.ar+) Tabela 12: Descreve as variações de LA Tabela 13:Extração de n-grama dos nomes próprios topônimos do país Argentina Tabela 14 Extração do conjunto lexical dos nomes próprios do país Argentina em relação à lista de cidades da Argentina Tabela 15: Faixas de Freqüência da Categoria Food Tabela 16: Palavras-chave da categoria Food para 11 destinos Tabela 17. Palavras-chave que ocorrem em 11 dos 11 destinos, 10 dos 11 destinos, 9 dos 11 destinos e em 8 dos 11 destinos Tabela 18. Palavras-chave que ocorrem em 7 dos 11 destinos, 6 dos 11 destinos, 5 dos 11 destinos, 4 dos 11 destinos em 3 dos 11 destinos Tabela 19. Distribuição da frequência absoluta e relativa da Argentina (c.ar-) 201

16 Lista de Siglas CG - Gramática Constritiva (C.AR+) - Palavras de ARG com alta frequência (C.AR-) - Palavras de ARG com baixa frequência CRS- Conversational Recommender System (gw-) - Grafos Weather com baixa frequência (gw+) - Grafos Weather com alta frequência HLT - Tecnologias da Linguagem Humana IA - Inteligência Artificial IS- Information System ISK - Instituto de Linguagem e Comunicação LC- Lingüística Computacional MCM - Meios de Comunicação de Massa NLP- Processamento de Linguagem Natural OMT - Organização Mundial do Turismo PLN - Processamento de Linguagem Natural RST- Sistemas de Recomendação em Turismo RA- Recommendation Agent RL- Reinforcement Learning SDU - University of Southern Denmark TIS - Sistemas de Informação Turística TP- Travel Planner TL- Tecnologias da Linguagem UNWTO - World Tourism Organization TICs - Tecnologias da Comunicação e Informação VISL - Visual Interactive Syntax Learning (w-) - Palavras com baixa frequência (w+) - Palavras com alta frequência WS - WordSmith Tools (f+) - Faixas de frequência alta (f+-) - Faixas de frequência média

17 (f-) - Faixas de frequência baixa ARG - Argentina BOL - Bolívia CAR - Caribe CHI - Chile COL - Colômbia EQUA - Equador MEX - México PAR - Paraguai PER - Peru URU - Uruguai VEN - Venezuela

18 SUMÁRIO 1. INTRODUÇÃO:TURISMO E TECNOLOGIA Buscando Soluções Tecnológicas Solução integrada de Conteúdos Latino-Americanos Declínio dos Meios de Comunicação de Massa Informação Turística na Web como Negócio Objetivos, Pressupostos e Problema desta Pesquisa Tecnologias da Linguagem, Processamento de Linguagem Natural e Linguística Computacional Tecnologias da Linguagem Aplicadas ao Campo do Turismo Sistemas de Recomendação em Turismo Sistemas Baseados em Conteúdos Gerados por Usuários Sistemas de Emergência de Comunidades Online REPRESENTAÇÃO SEMIÓTICA DOS LUGARES TURÍSTICOS Representações Regionalizadas e Linguagem de Domínio Específico Dimensão Semiótica da Representação Turística Produção de Sentido como Condição de Seleção Informacional Significação como Efeito da Rede de Signos Linguagem do Turismo como Linguagem de Domínio Próprio Conceito de Função da Linguagem Aplicado ao Domínio Turístico A Linguagem do Turismo como Controle Social Identificando Categorias de Destinos em Capas de Turismo REPRESENTAÇÃO SEMÂNTICA ATRAVÉS DE RELAÇÕES CONCEITUAIS Representação de Conhecimento Conceitos de Ontologia e suas Raízes Semióticas... 48

19 3.3 Construção de Léxicos Computacionais Teorias Linguísticas em Confronto:Hudson e Chomsky Tipos de Ontologias Associados as suas Funções Conceito de Redes Semânticas Redes Sociais e Redes Semânticas REPRESENTAÇÃO SEMÂNTICA POR MÉTODOS ESTATÍSTICOS Histórico da Linguística de Corpus Fundamentação Teórica Critérios para a Coleta de um Corpus Representatividade do Corpus A Linguística de Corpus e a Linguística Computacional Usando Ferramentas de Análise de Texto FERRAMENTAS DE ANÁLISE LINGUISTICA AUTOMÁTICA Organização do Corpus Cálculo da Frequência de Palavras O Pacote WordSmith Tools Ferramentas do WordSmith Tool Procedimento de Etiquetagem Gramática Constritiva O analisador sintático PALAVRAS Categoria Prototípica Animal Categoria prototípica Plant (Vegetação) Categoria prototípica de Humanos Categoria prototípica de Lugar e Espaço Categoria prototípica de Comida EXTRAÇÃO DAS REDES LÉXICO-SEMÂNTICAS Distribuição do Léxico por Medidas de Frequência

20 6.1.2 Processo de filtragem dos corpora para estudo por destino Distribuição do Léxico por Palavras-Chave Distribuição do Léxico por Categoria Semântica Descrição das Categorias Semânticas em Relação aos Destinos Descrição dos Destinos em Relação as Categorias Semânticas Extração de Redes Lexicais Rede de co-ocorrência entre Destinos Extração Lexical Através de Categorias Semânticas Descrição das Redes Semânticas com Base na Extração das Categorias Extração Lexical Através de Concordância Categorias Semânticas, Nomes Próprios e Chavicidade Extração Lexical Através de Nomes Próprios e Cluster de Palavras Estudo de Caso de uma Categoria Semântica: Food ª Estágio ª Estágio º Estágio ANÁLISE E DISCUSSÃO DOS RESULTADOS CONCLUSÃO REFERÊNCIAS BIBLIOGRÁFICAS A N E X O S ANEXO A: FAIXA DE PALAVRAS- CHAVE COM FREQUÊNCIA ALTA, PALAVRAS-CHAVE COM FREQUÊNCIA MÉDIA E PALAVRAS-CHAVE COM FREQUÊNCIA BAIXA ANEXO A1 PALAVRAS EXCLUSIVAS DO CONJUNTO DE PALAVRAS-CHAVE DOS DESTINOS LATINO-AMERICANOS ANEXO B: DISTRIBUIÇÃO DE FREQUÊNCIA DAS CATEGORIAS SEMÂNTICAS MENOS FREQÜENTES DO DESTINO ARGENTINA

21 ANEXO C CONTEÚDO LEXICAL DA CATEGORIA FOOD PARA OS 11 DESTINOS ANEXO D PALAVRAS-CHAVE NOS DESTINOS ARGENTINA, BOLÍVIA, CARIBE, CHILE E COLÔMBIA ANEXO D1:PALAVRAS-CHAVE NOS DESTINOS EQUADOR, MÉXICO, PARAGUAI, PERU, URUGUAI E VENEZUELA

22 12 1. INTRODUÇÃO:TURISMO E TECNOLOGIA 1.1 Buscando Soluções Tecnológicas Não é de hoje que as representações semânticas do cenário latino-americano e sua especificidade no campo do Turismo fazem parte dos nossos estudos. Em 2004, concluímos uma primeira pesquisa sobre o assunto como monografia de pósgraduação lato sensu na PUCSP (OKUYAMA, 2004). Através de uma análise de conteúdo das capas dos cadernos de Turismo da Folha de São Paulo no período , extraímos cinco matrizes semânticas capazes de diferenciar perfis gerais de destinos turísticos latino-americanos: natureza, cultura, história, economia, política. Chamou-nos a atenção a dificuldade de lidar com materiais jornalísticos como base para extração de dados de pesquisa. O alto valor das taxas cobradas pelo acesso aos cadernos no banco de dados da Folha levou-nos a optar por recolher o material no acervo público do Arquivo do Estado de São Paulo. Ali pudemos consultar as fontes em estado bruto e, com auxílio de uma máquina fotográfica, demoramos alguns meses recolhendo imagens de todas as capas que tratavam de destinos turísticos latino-americanos num período de onze anos. O material não estava digitalizado. O jornal Folha de São Paulo, que tinha começado a digitalizar as edições a partir de 1994, ainda não tinha criado a Folha Online. A experiência dessas dificuldades motivou nosso interesse, de um lado, pelo problema das barreiras que limitam o acesso social à informação e, de outro lado, pela busca de soluções tecnológicas que pudessem facilitar a circulação da informação na sociedade. Assim começou este nosso estudo sobre métodos e ferramentas capazes de extrair de modo automático representações semânticas sobre destinos turísticos. O tratamento da informação não só deveria torná-la acessível, como também deveria poder lidar com o problema da grande escala de conteúdos em circulação. No campo específico da informação turística, que tem sido nosso objeto de estudo, queríamos buscar um método de modelagem semântica da informação que pudesse ser adaptado e incorporado a diferentes tipos de

23 13 aplicativos. Por exemplo, sistemas automatizados de consulta e recomendação turística, sistemas de diálogo, sistemas de redação automática de textos de divulgação turística, bases de dados, enfim, sistemas indexados de informação turística que pudessem alimentar também o estilo rápido de troca de mensagens nas comunicações móveis. 1.2 Solução integrada de Conteúdos Latino-Americanos Na maioria dos países da América Latina, as principais entidades que disponibilizam informação de interesse público, tais como a Cepal ou o IBGE, não prevêem em suas bases de dados correlações relevantes que permitam localizar conteúdos referentes à área turística. Só recentemente os países latino-americanos estão despertando para percepção de que um tratamento integrado da informação turística é peça chave para alavancar o desenvolvimento de uma economia regional do turismo. Segundo o site da Organização Mundial do Turismo (UNWTO/OMT) 1, a receita do turismo internacional em 2010 foi de US$ bilhões, com aumento em termos reais de 5% em comparação a Houve um crescimento nos desembarques turísticos internacionais de cerca de 3,7% entre janeiro e agosto de 2010, comparado ao mesmo período de E há uma previsão de aumento anual de 1,6 milhões de chegadas turísticas internacionais até A preocupação em criar um circuito integrado de bancos de conteúdo que atendam à demanda de informação sobre turismo nos países latino-americanos é bastante recente e carece ainda de uma estrutura institucional mais robusta. A própria demanda por esse tipo de informação no Brasil é também embrionária e associa-se, por exemplo, a projetos educacionais que incentivem a introdução do idioma espanhol como disciplina obrigatória ao lado do Português nas escolas 1 World Tourism Organization UNWTO. Disponível em: < Acesso em 10 de junho 2011

24 14 brasileiras. Mesmo nas universidades brasileiras, o interesse por temas latinoamericanos só muito recentemente começou a encontrar ressonância, vinculado ao fato de só agora as populações desses países estão começando a valorizar a informação como um direito e um bem a ser distribuído com transparência e equidade. Na década de 90, o Brasil iniciou uma política de integração com os seus vizinhos da América Latina e, com isso, veio à tona a pobreza dos recursos informacionais e o impacto negativo que isso gera na capacidade de observação dos países sobre si mesmos e sobre os vizinhos (STEINBERGER, 2002). Em nosso trabalho sobre o impacto do turismo na construção de identidades culturais na América Latina a análise das capas da Folha Turismo revelou que o imaginário turístico brasileiro sobre os países vizinhos latino-americanos é baseado predominantemente em clichês. O marcos de referência que emergiram daquela análise permitiu detectar representações cognitivas padronizadas (frames) que influenciam opiniões sobre destinos e decisões de viagem. Um relatório de pesquisa realizada pelo Instituto Brasileiro de Turismo (EMBRATUR) e pela Fundação Instituto de Pesquisa Econômicas (FIPE) intitulado Perfil da Demanda Turística Internacional constatou que a maioria dos brasileiros escolhe um destino turístico por influência de amigos e parentes. Os brasileiros também demonstraram uma forte inclinação para a troca de informação sobre destinos turísticos em redes sociais. A pesquisa aponta que nos anos de 2005, 2006 e 2007 o vertiginoso crescimento da Internet e as facilidades tecnológicas de acesso à informação turística tiveram impacto importante nas decisões de viagem. Os dados da pesquisa apontam também que existe por parte dos viajantes uma espécie de afinidade prévia com o destino turístico escolhido, um tipo de relação anterior de natureza cultural e histórica já construída entre o turista e o destino, algo que não se verificaria, por exemplo, em viagens corporativas. Os principais países emissores do turismo no Brasil (países que nos enviam turistas), segundo a mesma pesquisa são os seguintes: Alemanha, Argentina, Canadá, Chile, Espanha, Estados Unidos da América, França, Holanda, Inglaterra, Itália, México, Paraguai, Portugal, Suíça e Uruguai. Para conhecer melhor o perfil destes viajantes que buscam destinos turísticos brasileiros, a pesquisa analisou as

25 15 seguintes categorias: Motivação da viagem, Características da viagem, Destinos mais visitados, Organização da viagem, Fidelização ao destino, Perfil socioeconômico, Grau de satisfação em relação à viagem e Avaliação da viagem. A Alemanha, por exemplo, apresentou como motivações de viagem: lazer 24,9 %, negócios eventos e convenções 34,8% e visitar amigos e parentes 35,1%. Uma subcategoria abordada na pesquisa foi Motivação de Viagem a Lazer, que resultou em: Sol e Praia 31,3%, Natureza, ecoturismo ou aventura 32,6%, Cultura 24,7%. Em Destinos mais Visitados na categoria Lazer, Rio de Janeiro-RJ ficou em primeiro com 50,1%, em segundo Foz do Iguaçu-PR 30,5%, e em terceiro Salvador-BA com 24,6%. Na categoria Negócios Eventos e Convenções, São Paulo tem 53,4%, Rio de Janeiro-RJ 20,9% e Curitiba-PR 8,8 %. Na categoria outros, São Paulo-SP tem 28,5%, Rio de Janeiro- RJ 24,6% e Salvador- BA 16,7%. A contribuição de pesquisas como esta poderia ser ainda maior se compartilhasse uma solução integrada de tratamento de conteúdos sobre sistemas de turismo na América Latina. Talvez assim fosse possível responder quais são as condições que levam alguns desses viajantes, que vêm do exterior, a ter motivação para estender sua viagem ao Brasil também a outros destinos na região latinoamericana. Ou então responder sobre quais são as motivações dos próprios brasileiros para visitar destinos nos países vizinhos e vice-versa. 1.3 Declínio dos Meios de Comunicação de Massa O papel dos meios de comunicação de massa (MCM) como divulgadores do turismo foi essencial aos brasileiros durante muito tempo, mas hoje tem seu lugar redimensionado diante da Internet. A linguagem jornalística, entretanto, continua a influenciar os usuários, sobretudo quando se torna menos informativa e mais persuasiva. Resultados de uma pesquisa em textos de jornal sobre destinos latinoamericanos (OKUYAMA, 2004) apontaram a prevalência de uma abordagem

26 16 promocional e de marketing em detrimento de uma descrição de cunho mais informativo e educacional. No período estudado ( ), constatou-se também que textos sobre destinos turísticos da América Latina eram menos freqüentes do que textos sobre destinos na Europa. Concluiu-se que a mídia tinha um papel importante na distribuição do gosto e dos interesses por destinos turísticos e que o mapeamento das motivações de viagem pelo continente latino-americano podia ser compreendido na moldura de uma espécie de geopolítica da cultura monitorada pela mídia (STEINBERGER, 2005). Pesquisas sobre a linguagem jornalística, seus efeitos e influências na formação de opinião já demonstraram que a linguagem jornalística contribui para delimitar e fazer prevalecer um espectro de visões e opiniões sobre os fatos que retrata. A extração de representações semânticas de destinos turísticos, então, deveria ser a tarefa de uma ferramenta capaz de distinguir entre expressões de um gênero referencial-descritivo de linguagem e expressões de um gênero argumentativo, mais típicas do marketing. Mesmo este papel da linguagem persuasiva está também sendo revisto nos novos ambientes tecnológicos de troca de informações. O acesso agora quase ilimitado a todo tipo de informação permite que os roteiros fabricados pela indústria turística sejam rapidamente levados aos comentários e avaliações de usuários em todas as partes do mundo. Eles vão à Web com dicas de viagem e depoimentos, ajudando a desfazer equívocos através da ampla possibilidade de cruzamento de informações. Ainda assim, prevalece o problema da credibilidade da informação que circula em aberto na rede. 1.4 Informação Turística na Web como Negócio As novas tecnologias da informação e comunicação (TIC), especialmente as que dinamizam a troca de informações na Web, também contribuem para consolidar a indústria de viagens e turismo e potencializar suas estratégias de marketing. A Internet tornou-se a principal fonte de informação turística. Perto de 95% dos usuários vão à Internet buscar informação sobre viagens. Essa tendência começou a

27 17 manifestar-se já desde 2001, quando houve 46,7 milhões de reservas em hotéis de todo o mundo, segundo a rede de distribuição eletrônica da Associação Internacional de Turismo, gerando US$ 12,9 bilhões em receitas. A própria natureza da atividade turística, por sua vez, também tem especificidades econômicas para o desenvolvimento regional e para impulsionar as tecnologias de informação. Staab e Werthener (2002) assinalam que a Internet fez crescer a busca de informações turísticas, e tornou instigante o estudo de aplicações capazes de extrair conhecimento de páginas da Web. É cada vez mais freqüente a pesquisa de ferramentas automatizadas para buscar, extrair, filtrar e avaliar as informações e os recursos disponíveis. A Web transformou-se no principal meio de comércio eletrônico, organizações e companhias investem milhões em tecnologias voltadas a modelos e padrões de acesso. A Web não só fez crescer a procura por serviços e sistemas inteligente capazes de minerar conhecimento como também abriu espaço para o tratamento da informação como um novo tipo de negócio baseado na informação turística. Os sistemas de informação turística (Tourism Information Systems -TIS) dão suporte ao turismo eletrônico (e-tourism) que abarca serviços de companhias aéreas, redes hoteleiras, locadoras de automóveis e agências de viagens (COOLEY; MOBASHER; SRIVASTAVA, 1997). Os TIS estão relacionados à criação de novos produtos e serviços automatizados que auxiliam nos processos de tomada de decisão. Para isto, no entanto, dependem de uma ampla rede de cruzamento automático de informações que leva em conta preferências individuais e vai muito além da simples comparação de preços e serviços. Da arquitetura desses sistemas de informação turística fazem parte estruturas baseadas em cadeias de decisões. Na lógica do sistema, a decisão sobre o destino da viagem precede a da escolha da companhia aérea e da hospedagem, embora não se excluam as motivações baseadas em preço e vantagens adicionais. Entre os agentes de turismo, entretanto, quase sempre a informação sobre serviços tem mais destaque do que a informação sobre os destinos turísticos em si. Assume-se que o cliente que procurou o agente já tomou sua decisão sobre o destino pretendido.

28 Objetivos, Pressupostos e Problema desta Pesquisa O objetivo geral desta pesquisa é o estudo das representações semânticas de destinos turísticos latino-americanos. A representação semântica de um destino turístico é a rede de conceitos que lhe são associados e que fazem com que ele seja considerado como tal. Parte-se de um primeiro pressuposto de que a distribuição de informação sobre destinos turísticos no espaço latino-americano, a partir de um sistema integrado de dados, irá contribuir para dinamizar o fluxo das viagens e a economia regional. Parte-se também de um segundo pressuposto de que informações sobre as motivações dos usuários na escolha de seus destinos de viagem já vêm embutidas na própria linguagem que descreve os destinos turísticos. Assim, o problema de pesquisa é a identificação de teorias, métodos e técnicas que apóiam a criação de sistemas capazes de reconhecer e/ou extraírem informação sobre o espaço turístico latino-americano. A definição deste espaço será tratada aqui a partir do conceito de rede, tomando-se os países como nós e suas relações como arcos. A moldura teórica da pesquisa baseia-se na visão de Steinberger (2005) de que a geografia espacial onde tais redes são projetadas tem a contrapartida de uma geografia simbólica que se organiza através da distribuição lexical em um espaço definido semanticamente. Adota-se uma perspectiva construtivista baseada em Luhmann (1987) sobre o modo como os destinos turísticos adquirem significação e são linguisticamente representados. Isto significa que a linguagem que descreve tais destinos será tratada como expressão de um tipo de inteligência social. O modo como esse sistema socialmente inteligente constrói as representações semânticas de destinos turísticos será discutido neste trabalho a partir de três vertentes: a semiótica, a estatística e a lexicográfica. Alguns princípios foram assumidos no ponto de partida nesta pesquisa: - Uma ferramenta capaz de reconhecer expressões descritivas de cenários e destinos latino-americanos em textos sobre turismo em língua portuguesa deve ter como entrada (input) uma lista de macro-categorias semânticas (categorias de nível superordenado).

29 19 - O conjunto de textos sobre turismo em língua portuguesa deve ser colhido com o rigor necessário para garantir que tenha conteúdo semântico representativo do domínio em estudo. - Os métodos de processamento deverão adotar uma abordagem de combinação mista entre etapas de indução e dedução. - A aplicação de macro-categorias semânticas para extração de vocabulário caracterizará um método top-down. - A aplicação de estratégias para reconhecimento de clusters e composição de redes será bottom-up. O planejamento desta pesquisa foi orientado para a busca de soluções a partir destes princípios. Assumiu-se a hipótese de que a distribuição da informação léxico-semântica, em textos jornalísticos sobre turismo é capaz de reconhecer e diferenciar palavras da língua portuguesa mais tipicamente associadas aos destinos turísticos latino-americanos. Espera-se também que uma pesquisa dedicada à verificação desta hipótese seja capaz de contribuir para a definição de parâmetros de construção de bancos de conteúdo informacional sobre turismo na América Latina e eventualmente subsidiar aplicações mais ambiciosas tais como a disseminação de conteúdos sobre turismo latino-americano em aparelhos celulares, a construção de sistemas automatizados de diálogo e a redação automática de noticias no domínio turístico. 1.6 Tecnologias da Linguagem, Processamento de Linguagem Natural e Linguística Computacional Tecnologias da Linguagem (TL) segundo Uszkoreit 2 (2011) são as tecnologias da informação especializadas em linguagem humana, também 12/05/ Language Technology A First Overview Acesso em:

30 20 chamadas de Tecnologias da Linguagem Humana (Human Language Technologies - HLT) ou de Processamento de Linguagem Natural (Natural Language Processing NLP). Segundo o autor, a modelagem da linguagem humana requer um esforço interdisciplinar com o apoio das disciplinas: Ciência da Computação, teoria da Lingüística Computacional, Matemática, Engenharia Elétrica e Psicologia. Os métodos e recursos de modelagem da linguagem humana apóiam-se em linguagens de programação, algoritmos e técnicas estatísticas. Outros métodos são redes neurais e técnicas de otimização e busca. A parte da Lingüística que estuda tecnologias da linguagem humana e que adota métodos computacionais de análise é a Lingüística Computacional A Lingüística Computacional (Computational Linguistics CL) desenvolve aplicações voltadas a investigar a linguagem humana, tanto na forma falada (Dialog Systems) quanto na escrita (Text Processing). A linguagem oral é o modo mais antigo e mais natural de linguagem, já a comunicação de informações complexas é mantida e transmitida em textos escritos. A linguagem tem aspectos que são compartilhados entre fala e de texto, como dicionários, a maior parte da gramática e do significado das frases. Entre eles, estão as tecnologias que apontam para o conhecimento de línguas. Não se tem o conhecimento de como a língua e o pensamento são representados no cérebro humano. No entanto, a tecnologia da linguagem produz sistemas de representação formal (modelos) aplicáveis a conceitos e tarefas do mundo real, desta forma o crescimento do conhecimento tecnológico mantém uma interface entre a língua e a tecnologia. A Lingüística Computacional desenvolve a modelagem lingüística com auxílio da Computação, tomando como objetos de investigação, por exemplo, a evolução da linguagem (Linguística Evolucionária), a mudança lingüística e a distribuição social das variedades de fala (Sociolingüística), a distribuição geográfica das variedades de fala (Geografia lingüística), os processos de aquisição e desenvolvimento da linguagem humana (Aquisição de Linguagem), o processamento linguístico-cognitivo envolvido em atividades de memorização, redação e leitura (Psicolinguística), o processamento linguístico-cognitivo envolvido em atividades sociais (Análise de Discurso) e vários outros. A linguagem para fins comunicativos mistura vários modos de expressão e vários canais de informação. Por exemplo, os seres humanos combinam a fala com

31 21 expressões gestuais e faciais. Textos digitais são combinados com imagens e sons. Filmes podem conter linguagem e falada e escrita. Assim tecnologias de voz e texto se sobrepõem e interagem com muitas outras tecnologias que facilitam o processamento de comunicação multimodal e documentos multimídia. As Tecnologias de Linguagem têm várias aplicações todas com objetivo de criar um produto de software que envolva algum conhecimento de linguagem humana e proporcione uma melhor interação humano-máquina: Tecnologias de reconhecimento de voz. A língua falada é reconhecida e transformada em texto como em sistemas de ditado, em comandos como em sistemas de controle do robô, ou em alguma outra representação interna. Tecnologia de síntese de voz. Enunciados na língua falada são produzidos a partir de texto (sistemas text-to-speech) ou a partir de representações internas de palavras ou frases (sistemas concept-tospeech) Categorização de textos. Esta tecnologia atribui categorias a textos, estes podem pertencer a mais de uma categoria, a filtragem é um caso especial de qualificação com apenas duas categorias. Tecnologia de sumarização de textos. A sumarização de textos extrai partes relevantes de um texto e a tarefa ajusta o comprimento necessário dos resumos. Tecnologia de indexação de texto. Como condição prévia para obtenção de documentos, os textos são armazenados em um banco de dados indexados. Normalmente, um texto é indexado para todas as formas de palavra ou após lematização ou para todos os lemas. Às vezes, a indexação é combinada com a categorização e compactação. Recuperação da Informação. Os textos são recuperados de uma base de dados que melhor corresponda a uma determinada consulta ou documento. Os documentos são ordenados por ordem de relevância, indexação, categorização, sumarização e o processo é submetido ao termo de referência para recuperação de informação.

32 22 Tecnologias da tradução consistem em traduzir automaticamente textos ou ajudar os tradutores humanos. Tomam como referência grandes quantidades de textos de traduções já realizadas para uma eficiente recuperação de um elenco de traduções possíveis de palavras, frases ou sentenças. 1.7 Tecnologias da Linguagem Aplicadas ao Campo do Turismo A Engenharia da Informação e suas tecnologias têm um papel cada vez mais importante no campo do Turismo, e mais especificamente em aplicações voltadas à comunicação de informação turística. Os anais de congressos e encontros científicos recentes que relatam pesquisas científicas sobre aplicações tecnológicas no campo turístico são uma fonte interessante para mapear as principais sub-áreas de pesquisa que estão emergindo nesse campo tão dinâmico. Por exemplo, um rápido panorama da aplicação de Tecnologias da Linguagem ao campo turístico pode ser apresentado a partir da publicação Information and Communication Technologies in Tourism (2008), volume que reúne as contribuições dos pesquisadores que participaram no mesmo ano da Conferência Internacional de Turismo em Innsbruck, Áustria. Este congresso (conhecido como ENTER) é um evento global de referência na área de Tecnologias da Comunicação e Informação em Viagens e Turismo e apresenta as pesquisas mundiais mais importantes sobre a interface entre turismo e tecnologia. O objetivo também é criar um ponto de encontro entre representantes da indústria do turismo e representantes das áreas de pesquisa acadêmica. No ano de 2008, o congresso foi estruturado em 17 áreas, como mostra o Quadro 1. Quadro 1. Áreas de pesquisa em Tecnologia da Comunicação e Informação em Viagens e Turismo

33 23 1 Recomender Systems in Tourism 2 User Generated Content in Tourism 3 Online Communities 4 Web Services 5 Web 2.0 and Tourism 6 Dynamic Packaging 7 Destination Management Systems 8 Hotel Electronic Distribution I 9 Hotel Electronic Distribution II 10 Mobile Technology and Tourism 11 Travel Technology 12 Tourism Destinations 13 Knowing the Customer 14 Search and Travel 15 Managing Tourism Technology 16 Tourism Networks 17 Technology Acceptance Sistemas de Recomendação em Turismo Os Sistemas de Recomendação em Turismo (Recomender Systems in Tourism - RST), uma subárea das tecnologias de linguagem, há trabalhos buscando auxiliar o usuário de forma inteligente a escolher um destino turístico. Sistemas de Recomendação são aplicações inteligentes de e-commerce para auxiliar os usuários a obter informação personalizada e recomendação de produtos a cada sessão de interação. Os RST servem como um suporte crítico de planejamento de viagens em que o usuário poderá manter contato e ser assistido pelo sistema tanto antes como durante a viagem (FESENMAIER et al., 2006). No artigo Adaptative Recommender Systems for Travel Planning, os autores Mahmood, et al (2008), do Departamento de Comunicação e Informação tecnológica da Universidade de Trento, Itália, propõem um sistema de recomendação para

34 24 viagens e turismo no qual seja possível estabelecer diálogos interativos entre usuário e máquina. Este artigo descreve de modo geral um sistema adaptável de recomendação, a abordagem é aplicada no âmbito do Travel Planner (TP) ferramenta construída para o turismo austríaco. O objetivo é planejar viagens de forma dinâmica. Com apoio de técnicas de aprendizado de reforço, o sistema foi testado no portal de turismo da Áustria (Áustria.Info). O objetivo principal do sistema, segundo os autores, é facilitar o processo de busca da informação pelo viajante e persuadi-lo com um serviço apropriado. Um sistema de recomendação conversacional (conversational recommender system - CRS) é mais real (natural) do que um sistema de recomendação tradicional que executa um tipo de ação e decide qual produto deve ser recomendado. Este sistema suporta um diálogo em estágios, recomendando um produto ou pedindo ao usuário alguma informação. A ação particular é selecionada através de uma estratégia específica de recomendação. O CRS trabalha com duas estratégias básicas: a primeira é: pergunte ao usuário detalhes sobre sua preferência, e use essas informações para extrair um pequeno conjunto de produtos. A segunda é: proponha um conjunto de produtos para o usuário e utilize o feedback do usuário para refinar uma recomendação futura. Essas duas estratégias conversacionais já faziam parte da tecnologia Trip@advice. O modelo de recomendação é composto basicamente por duas entidades nomeadas de Information System (IS) e Recommendation Agent (RA). O IS é uma entidade não adaptativa cuja função é totalmente controlada pelo usuário mostra o resultado da pesquisa. O RA é adaptável a entidade que auxilia o usuário ativamente, fornecendo-lhe as informações relevantes em fases apropriadas da interação. O modelo otimiza as estratégias através de técnicas de Reinforcement Learning (RL) usando processos de decisão com base em cadeias de Markov. O artigo ilustra a metodologia de recomendação da ferramenta TP apoiado na tecnologia da Trip@advice. Trip@advice permite ao usuário selecionar componentes de viagem (hotel, atração e eventos) através de catálogos, customizando a viagem.

35 Sistemas Baseados em Conteúdos Gerados por Usuários Já na área de conteúdos gerados por usuários em Turismo (User-generated Content in Tourism), a metodologia utilizada baseia-se na pesquisa de conteúdos gerados pelos próprios usuários. User-generated Content in Tourism (UGT) é o nome genérico de métodos e ferramentas que exploram o significado de dados relacionados ao usuário. Esta abordagem ajuda a descobrir os caminhos trilhados pelo turista através de telefone celular, rede de dados e fotos geo-referenciadas. Desta forma, é possível reunir informação sobre toda a movimentação gerada pelos usuários. Um primeiro artigo sobre esta área, Use and Impact of Online Travel Reviews, estuda o impacto dos relatos feitos por viajantes em sites de viagem como TripAdvisor.com. Os resultados mostram que os conteúdos dos relatos são utilizados principalmente para decisões sobre hospedagem (acomodação) e não são muito utilizados para planejar roteiros de viagens. O artigo conclui que os relatos de viagens são feitos por pessoas educadas, de alta renda, com um fluxo de viagens freqüente, e que utilizam a Internet extensivamente, planejando suas viagens com antecedência. Os relatos de viagem especificamente de usuários do TripAdvisor são um importante alvo para o marketing de viagens, e os comentários mais acessíveis podem ser disponibilizados em aplicações móveis. No artigo User-Generated Content and Travel: A Case Study on TripAdvisor, Connor (2008), o autor, que é vinculado ao Instituto Internacional de Gerenciamento Hoteleiro da França, examina o conteúdo gerado pelos usuários em viagens de negócios que deixaram comentários no TripAdvisor.com, uma rede online de consumidores de viagens. Segundo o autor, boatos de que o sistema é comprometido por falsas opiniões postadas para promover um ou outro hotel, ou para comprometer a reputação de concorrentes são improcedentes. Connor (2008), cita os números do Media Metrix 3 de 2007 segundo os quais o conjunto dos sites de consumidores de viagens (bookingbuddy.com, independentraveler.com, seatguru.com, smartertravel.com e TripAdvisor.com) atraiu aproximadamente 30 milhões de visitantes por mês (Frommer s 4 vendeu aproximadamente 2.5 milhões 3 Ferramenta que mede o desempenho da audiência on-line. Frommer. 4 É uma série de guias de viagens, teve início em 1957 com a publicação do livro de Arthur

36 26 por ano), fazendo deste o mais popular recurso de informação sobre viagens da web. TripAdvisor tem mais de 5 milhões de membros registrados. De acordo com a Travel Weekly (2007) aproximadamente 8% de todas as viagens de lazer utilizam a Web para pesquisar viagens. O artigo RevisiTour: Enriching the Tourism Experience with User-generated Content apresenta estudo de caso sobre um sistema para turistas onde é possível compartilhar experiências. O sistema RevisiTour é um aplicativo que permite aos visitantes do Georgia Aquarium trocar impressões de modo realista Sistemas de Emergência de Comunidades Online No artigo Web 2.0: A Study of Online Travel Community, os autores Chung e Buhalis, (2008), do departamento de Recreação e Ciências do Turismo do Texas, tratam do processo de emergência das comunidades on-line. Para entender o fenômeno viagens em comunidades online é preciso examinar as reais motivações e analisar os benefícios percebidos como associados à participação como membros da comunidade online. Através da análise de dados coletados em pesquisa online, os autores revelaram que, além de benefícios sócio-psicológicos, os membros da comunidade percebem benefícios funcionais, incluindo acesso a informações e aquisição e partilha de experiências. A emergência de comunidades online, onde as pessoas se encontram e discutem em fóruns, permite obter informações sobre viagens e trocar experiências sobre vários destinos turísticos ou sobre compra de produtos associados a estes destinos. Quando planeja viajar o indivíduo necessita de uma extensa busca por informações, isto é necessário porque os produtos de viagens são intangíveis e não podem ser avaliados antecipadamente. Viagens em feriados são um dos maiores gastos no orçamento doméstico anual das famílias segundo Holloway e Robinson, (1995); Mill e Morrison, (2002); Sirakaya e Woodside (2005).

37 27 Segundo Wang Yu e Fesenmaier, (2004). [ ] Travellers are also often eager to meet like-minded souls who have similar attitudes, interests, or lifestyles [ ] Este comportamento acredita-se estar associado por via de regra para reduzir o risco e a incerteza (GITELSON; CROMPTON, 1983; MANSFELD, 1992; MAYO; JARVIS,1981 MILL; MORRISON, 2002; STIGLER,1961) Num futuro não muito distante os potenciais viajantes irão maximizar o conhecimento sobre destinos turísticos pesquisando informações na Web. O padrão de informações será influenciado por perfis demográficos, níveis de experiências e uma série de outras variáveis. Encontrar a informação relevante que corresponda exatamente à consulta (query) de cada usuário não será mais um problema. Tecnologias da Linguagem embutidas em ferramentas de representação de conhecimento e de processamento da comunicação turística terão feito parte destas soluções.

38 28 2. REPRESENTAÇÃO SEMIÓTICA DOS LUGARES TURÍSTICOS 2.1 Representações Regionalizadas e Linguagem de Domínio Específico O avanço da diversidade de produtos e serviços tecnologicamente inovadores no campo do Turismo encontra agora o desafio de alcançar o domínio simbólico e mais abstrato do imaginário social e as representações que os viajantes fazem dos destinos turísticos. Há uma evidente lacuna na cadeia de decisões de viagem com respeito a ferramentas de assessoria automática aos usuários brasileiros para recomendação dos destinos latino-americanos mais adequados e interessantes de acordo com características, estilos, condições e preferências individuais. A lacuna maior, no entanto, está em construir sistemas de categorização semântica da informação turística em língua portuguesa. A inovação nesse domínio ainda não foi muito além da digitalização dos velhos guias impressos e da disponibilização via Internet de um conjunto caótico de informações sem o mais básico processo de classificação. A Web Semântica é uma promessa de organizar este caos classificando e etiquetando documentos e páginas da Web e adotando protocolos de comunicação acessíveis também em linguagem de computadores. O projeto de Tim Berners-Lee no entanto está demorando a deslanchar, entre outros motivos, pela multiplicidade de padrões e sistemas de organização e etiquetagem da informação em ontologias. Uma regionalização das ontologias preserva contudo a cor local e os valores associados idiossincraticamente a cada lugar. Práticas colaborativas do tipo de folksonomias e pesquisas em Processamento de Linguagem Natural buscam alternativas de comunicação mais próximas do mundo real dos usuários. Para isto, no entanto, é preciso conhecer mais sobre sistemas de categorização semântica no domínio do turismo e sobre as condições de produção coletiva de representações do campo turístico.

39 29 A definição da especificidade da linguagem em um domínio hipotético resulta de um processamento sucessivo de filtros. No caso da linguagem turística, estes filtros seriam aplicados a línguas de viagem (STEINBERGER, 2002), isto é, aquelas mais freqüentemente usadas pelos viajantes como uma espécie de língua franca (ou língua simplificada) para o desempenho de funções específicas. No caso de viagens de brasileiros através da América hispânica, o chamado Portunhol (combinação de Português e Espanhol) seria o extrato mais relevante de estudo. Assim, uma ferramenta capaz de reconhecer informação sobre destinos turísticos teria que ter a capacidade de distinguir entre a terminologia típica de uma linguagem do turismo (relacionada a serviços e hospitalidade) e uma língua de viagem relacionada a relatos de impressões de viagem (STEINBERGER, 2002). 2.2 Dimensão Semiótica da Representação Turística O estudo da natureza semiótica da representação turística e de como ela é capturada através da linguagem é ainda bastante recente (DANN,1996).Em geral, a informação sobre destinos turísticos é apresentada sob forma de roteiros (STEINBERGER, 2002). Buscando atender a um vasto espectro de gostos e desejos, os roteiros descrevem cenários de luxo em resorts e spas, chances de tranqüilidade e aconchego em praias longínquas e paradisíacas, e até expedições mais exóticas como as visitas a tribos indígenas e a exploração de recantos selvagens. O conceito de roteiro, segundo a autora, projeta no tempo e no espaço uma trajetória bem demarcada num campo de possibilidades. É um conceito que tem como complementação negativa a possibilidade de percursos de viagem ao acaso e de atividades de duração indefinida. Com o conceito de roteiro vem embutida uma associação a outro conceito, o de planejamento. Nessa medida, a informação turística adquire um valor estratégico. Dela vai depender o sucesso de um projeto de racionalidade que tenta equilibrar dispêndio de tempo, fruição de prazer, e gasto financeiro. Há nos discursos turísticos, portanto, uma tensão entre aventura e

40 30 planejamento. Seu objetivo é alcançar em um prazo limitado a máxima fruição com um mínimo de custo. É nesse contexto que conhecer um destino turístico depende da submissão a um roteiro engessado sobre o que vale a pena ver. E há sobre isso uma competência institucional de agentes e guias de viagem que é socialmente assumida e que desemboca em clichês como Não se pode ir a Paris sem ver a Torre Eiffel. A atividade turística corresponde, por conseguinte, a um tour lingüístico, há uma lista de nomes a percorrer, há um espaço semântico a ser preenchido com significações (idem, ibidem). A maioria dos viajantes é vítima dessa associação monotônica entre destinos e marcos de referência que constrói as representações dos lugares no turismo, ignorando que o espaço é um só e fazemos parte de um mundo globalizado onde não existem mais fronteiras que nos impeçam de conhecer o outro (ORTIZ, 2003 p. 29). A contrapartida espacial daquilo que é socialmente denominado como destino turístico é, assim, todo o imenso espaço não-turístico que, fora da constrição dos marcos de referência, pode ser percorrido a partir de motivações bem menos previsíveis do que aquelas construídas artificialmente pelos discursos turísticos. O turismo pode então existir de uma forma alheia a esse vale a pena ver turístico? O que engessa o viajante, então, são os roteiros ou é a linguagem que tão hábil e sedutoramente os constrói? A informação que a indústria turística oferece sobre os roteiros é responsável pela criação de um mercado simbólico de lugares. Essa representação industrial dos destinos turísticos gera impacto sobre a concepção da viagem. A forma como a sociedade se apropria dos lugares é modelada por uma dimensão lingüística e cognitiva. E que a atividade turística do viajante só existe como parte de uma rede cristalizada de conceitos que são associados aos lugares. Ao escolher um destino, o turista escolhe também uma narrativa que o projeta para dentro de cenários construídos lingüística e cognitivamente. A recuperação de uma proto-narrativa associada a cada lugar pode ser efetuada a partir da análise de um conjunto representativo de textos de divulgação turística sobre tal lugar. Essa protonarrativa revela-se através de uma rede léxico-semântica tipificada e constitui um modelo mental daquele lugar como destino turístico.

41 Produção de Sentido como Condição de Seleção Informacional Pode-se tratar o modo como a informação sobre destinos turísticos é representada semanticamente como um simples conjunto de dados que, devidamente processados, transformam-se em informações relevantes para os fins a que se destinam. Mas optou-se aqui por aplicar a este campo uma visão construtivista, tal como a defendida por Luhmann (2005), segundo o qual a produção e recuperação de conteúdos só pode ser operada em ambientes de comunicação onde sejam produzidos sentidos, diminuindo assim a complexidade do sistema informacional. Na fronteira entre um sistema e o ambiente que o circunda, a comunicação opera escolhendo uma quantidade limitada de informação disponível no ambiente, sendo que o sentido é o critério pelo qual a informação é selecionada e processada. Isto traduzido para o contexto turístico quer dizer que: a troca de informações turísticas e as decisões que a partir delas são tomadas podem ser consideradas como fazendo parte de um sistema complexo de informação, ou seja, um sistema onde o cálculo das decisões não é determinístico. É nesse quadro teórico da comunicação que se incluem os processos semiótico-cognitivos envolvidos na produção social de lugares como turísticos. Tomando também como matriz teórica o pensamento de Castoriadis (1975), para quem o imaginário social que produz os lugares organiza-se a partir de lógicas identitárias (estabelece identidades a partir de relações), Steinberger (2003, 2005) postula que há dois modos básicos de criar identidades: pelo Dizer e pelo Fazer. Exemplo da identidade estabelecida através do Dizer é escolher a palavra Caribe para nomear um conhecido destino turístico ao invés do nome de um dos países daquela região; ou escolher a palavra América para referir-se apenas à América do Norte ou anglo-saxônica. A seleção de modos de dizer é capaz de organizar identitariamente os lugares e instituí-los como destinos turísticos. Um exemplo da identidade estabelecida através do Fazer é dado pela sociedade que fabrica um lugar ao dotá-lo de valor turístico, isto é, usá-lo com a função de exercer o turismo. Há lugares que se tornam destinos turísticos por ação da comunidade local que explora o lugar como turístico em uma ação instrumental.

42 32 Instituir um destino turístico é também instituir um mundo de significações. Os atrativos de um lugar não existem por si, eles valem enquanto signos. São Paulo era a terra da garoa, depois se tornou a metrópole que não podia parar, e hoje é o maior pólo econômico da América Latina. Criam-se estereótipos correlacionados aos lugares, como parte da fabricação sócio-semiótica do modo de ser desses lugares e assim eles se tornam destinos turísticos. O imaginário, depois de estabelecido, ganha autonomia em relação à vida social e gera conseqüências próprias que vão além de seus motivos funcionais e mesmo às vezes os contrariam, podendo se perpetuar para além das circunstâncias que o fizeram nascer. A escolha e delimitação dos lugares a serem nomeados e incluídos num registro turístico fazem parte de um processo social de discretização da experiência, ou seja, de conversão de uma experiência contínua em uma experiência discreta, que pode ser mensurada e manipulada através de ferramentas simbólicas. Não é uma escolha individual, é socialmente motivada. Steinberger e Okuyama (2008) apresentam o turismo como um modo de produção e apropriação de lugares, mostrando que a divulgação jornalística ajuda a consolidar um modo de produção e a criar a idéia de destinos turísticos naturalizados, isto é, lugares turísticos in essentia. De fato, a expressão lugares turísticos é usada como se eles tivessem nascido como tais, como se a mão do homem não tivesse ido lá e apontado o que via através de suas lentes de rentabilidade econômica. Se os destinos turísticos resultam de uma produção social dos lugares, a chamada informação turística organizada em guias e roteiros não é só uma expressão desse processo, também contribui para consolidá-lo. 2.4 Significação como Efeito da Rede de Signos Para Echtner (1999) a perspectiva semiótico-cognitiva é usada para compreender como se produz a representação turística, mas não no jornalismo e sim na área de marketing. A autora aborda os processos de produção de conhecimento através da história, conceitos, ontologias e epistemologia como

43 33 fazendo parte da Semiótica. Para Berger (1984 apud ECHTNER 1999 p. 47) signos são identificados como qualquer coisa usada para representar qualquer coisa. Linguagem, gestos, documentos, arte, religião e vestimentas, tudo contém signos. A Semiótica se refere ao estudo dos modos de estruturar sentidos e tratar as formas de comunicação do significado. Sem os sistemas de signos não há como compreender a comunicação humana e comportamental. Nöth (1990) contextualiza a história e os principais conceitos da Semiótica. Segundo o autor, as raízes da Semiótica datam do antigo período Greco-Romano e a raiz do termo semiotike deriva das palavras gregas signo ou sinal. O estudo dos signos e dos significados foi explorado através de inúmeras escolas na idade medieval e no Renascimento, mas é somente no século XIX que o lingüista suíço Ferdinand de Saussure ( ) e o filósofo norte-americano Charles Sanders Peirce ( ) criam as condições para o surgimento da Semiótica moderna. Saussure (1966) preferia o termo semiologia, que definiu como a ciência que estuda o funcionamento dos signos em sociedade. Ele foi o primeiro a definir linguagem como um sistema de signos e caracterizando o signo como uma relação entre um significante (palavra) e um significado (objeto/conceito). Já Pierce preferiu compreender a estrutura do sentido no contexto de uma experiência humana total. Ele usou o termo semiótica para se referir a um sistema de significações construído através do sistema sensorial humano, portanto baseado não só em palavras, mas em sensações e linguagens não verbais. Ele definiu a produção dos sentidos com base em uma relação triádica entre um designatum (o objeto/ conceito significado), um signo (o significante usado para representar o objeto) e um interpretante (uma interpretação possível do sinal). Assim, um sinal não só representa algo, mas também representa algo para alguém em um contexto segundo Hawkes (1977 apud ECHTNER, 1999 p. 48). Cada ponto do triângulo semiótico interage com outros dois pontos. O sistema de significações só pode ser entendido através do exame de possíveis relações criadas em torno da periferia do triângulo. Pierce também desenvolveu a tipologia dos signos com base em três categorias: ícone, índice e símbolo. Um ícone se assemelha de alguma maneira ao significado do objeto. Por exemplo, uma réplica em miniatura da Torre Eiffel é um ícone. Outros exemplos de ícone são pinturas,

44 34 diagramas, fotografias e mapas. É importante ressaltar que a semelhança entre o original e a miniatura no caso de Torre Eiffel é culturalmente determinada, de tal modo que a associação França-Torre Eiffel poderia não ter sentido, por exemplo, para um bosquímano da Austrália. Índice tem uma relação de causalidade com o designado. Um bronzeado é um indício que significa a exposição ao sol. É algo adquirido pela experiência subjetiva ou pela herança cultural. E o terceiro tipo de signo, o símbolo, é o que é designado por associação completamente arbitrária, por exemplo, por que chamar uma mesa de mesa, ao invés de table? O símbolo produz sentido porque há uma concordância social arbitrária, uma aceitação coletiva generalizada de que o objeto mesa pode ser chamado mesa. Outros exemplos são a Estátua da Liberdade e o Cristo Redentor no Corcovado (Rio de Janeiro) e a própria Torre Eiffel, são todos símbolos que representam destinos turísticos Nova York, Rio de Janeiro, Paris. Esses signos fazem parte de um mercado simbólico do turismo segundo Maccannell (1989 apud ECHTNER, 1999 p. 52). É preciso ressaltar que os três tipos de signos não são mutuamente exclusivos, eles podem sobrepor-se. Por exemplo, uma pintura da Torre Eiffel em uma brochura turística é um ícone, mas pode ser também usada como símbolo quando representa Paris. Uma idéia similar consiste em dizer que um bronzeado é um índice, mas também pode ser que simbolize praia em um destino turístico tropical. O pensador francês Roland Barthes deu uma contribuição à Semiótica apresentando a distinção entre um uso literal (ou denotativo) da linguagem e um uso figurativo (conotativo). Por exemplo: Há duas propostas na mesa pode significar literalmente que há dois papéis com propostas escritas que foram depositadas sobre uma mesa, ou pode significar conotativamente apenas uma mesa como espaço simbólico onde as duas propostas aguardam votação. A distinção entre o uso literal e o uso conotativo da linguagem pressupõe que o usuário domina os sistemas de códigos que são adotados como padrões. É uma distinção importante para o estudo das significações nos sistemas turísticos. Os fundamentos da Semiótica são aplicados não só no campo do Turismo, mas em todas as disciplinas das Ciências Sociais e, mais recentemente, também à Biologia e à Vida Artificial. A aplicação da Semiótica aos estudos do turismo é

45 35 discutida por Uzzell (1984) que analisou fotografias da agência de turismo Sun Holiday para demonstrar que certos tipos de padrões de objetos e certas poses causam efeitos que servem para estruturar a experiência do turismo. A Semiótica aplicada ao turismo permite ir além dos conteúdos óbvios das fotos, por exemplo, uma garrafa de vinho representa a fantasia de uma boa vida ou distensão e falta de inibição. Outros padrões de objetos e pessoas são usados para simbolizar autenticidade, força, esteticismo. Para o autor, a linguagem do turismo baseia-se em ferramentas que promovem a fantasia e os mitos. Outro autor que estuda a linguagem turística é Cohen (1989), que analisa peças publicitárias, mapas e fotos que promovem expedições turísticas para conhecer uma tribo no norte da Tailândia. Ele descobre palavras específicas e formatos que são usados para expressar a imagem de uma autêntica experiência em um vilarejo tribal. Brown (1992) também discute a natureza simbólica da experiência turística, apresentada como uma forma simbólica de consumo pelo qual turistas revelam suas identidades e regras sociais através dos destinos que escolhem. O objetivo da promoção turística seria retratar essas experiências simbólicas usando um apropriado sistema de signos. Selwyn (1993) analisa uma grande amostra de textos e fotografias e propõe quatro tipos de categoria de representação no turismo: lugares, praias, pessoas e comida. Já Cooper (1994 p.144) prefere estudar as imagens do turismo como recursos para manipular a experiência turística através de modelos ritualizados. Echtner (1999) propõe que a relação triádica 1 que define o signo, conforme mostra a Figura 1, pode ser aplicada genericamente ao processo de produção de sentidos durante experiências de turismo. O significante seria o lugar, o significado seria o valor potencial desse lugar como destino turístico e o interpretante poderia ser o responsável pela associação entre o lugar e o valor, mas a autora conclui que o responsável por essa associação hoje seria a publicidade. Três tipos diferentes de relações emergem do triângulo semiótico do marketing turístico: (1) Destino/ Publicidade turismo (Como a publicidade do turismo representa o destino?) (2) Publicidade turismo/turismo potencial (Como o turista potencial interpreta representação?

46 36 (3) Destino/ turista potencial (O que é uma experiência de consumo simbólico oferecido para o turista através do destino? Publicidade turística (signo) Destino Potencial (Designatum) Turístico (Interpretante) Figura 1. Triângulo Semiótico. É importante destacar que o sentido ou os sistemas de signos são determinados através de uma convenção social. Embora alguns símbolos possam ser universalmente reconhecidos e interpretados, isso não é usual, sistemas de signos são culturalmente limitados. O turismo é uma experiência intercultural que depende do marketing para ganhar uma perspectiva internacional e globalizada. 2.5 Linguagem do Turismo como Linguagem de Domínio Próprio Em sua obra The Language of Tourism, Dann (1996 p.1) apresenta dois excertos do que seria uma linguagem do turismo. Um reproduz um trecho da fala de um guia de viagem, e o outro recupera trecho de diálogo entre amigos mostrando fotos ou slides de viagem. Ladies and gentlemen, on your right you will see the exact spot where William the Conqueror first set foot in Britain.

47 37 Well that Picture there- that s the Eiffel Tower, see. In front s me mum, and next to her is Aunt Flo. You should ve been there, though.smashing it was. Worth every penny. I d do it again any time. Para o autor, excertos como estes ilustram um tipo especial de comunicação que é reflexo da indústria do turismo. Defendendo a tese de que há uma linguagem própria do turismo, Dann (1996) tenta descrevê-la em atos de promoção de produtos ou de barganha entre vendedores e clientes. Através de imagens estáticas ou em movimento, textos escritos ou mensagens de audiovisual, a linguagem do turismo seria aquela que tenta persuadir, seduzir, cortejar e seduzir milhões de potenciais clientes. Said (1992 p.21) define a linguagem como um sistema altamente organizado e codificado que emprega muitos dispositivos para exprimir, indicar, trocar mensagens, informar e representar. Dann (1996) propõe um tratamento sociolingüístico da linguagem do turismo e a possibilidade de registrá-la na própria prática dos viajantes em atividade turística. Sugere quatro perspectivas que permitiriam identificar uma linguagem própria do turismo: authenticity, strangerhood, play,conflict (DANN, 1996 p.6-32). A perspectiva de autenticidade (authenticity) está relacionada com o trabalho de Maccannell (1989), para quem a motivação principal dos turistas é a busca de autenticidade. Ao manipular e comercializar a imagem dos destinos, a indústria do turismo os reduz e satura, por exemplo, antes de visitar São Francisco o turista é saturado de signos verbais ou visuais associados à ponte Golden Gate. Este turista, ao defrontar-se com a real Golden Gate terá a perspectiva da autenticidade porque irá comparar o que vê e as imagens saturadas de suas experiências anteriores. Para Dann (1996), a linguagem do turismo reforça a impressão de autenticidade através uma abundância explícita. A retórica do turismo é cheia de manifestações sobre a importância da autenticidade: this is a typical native house; this is the very place the leader fell; this is the actual pen used to sign the law; this is the original manuscript; this is the authentic Tlingit fish club; this is a real piece of the true Crown of Thorns (MCCANNELL, 1989 p.14). A perspectiva de estranhamento (strangerhood) está relacionada com a busca de acolhimento (COHEN; COOPER, 1986). A busca pelo desconhecido e por novas experiências motivaria a viagem porque, ao causar o estranhamento por exemplo no contato com culturas estrangeiras, o efeito é o de sentir-se acolhido em

48 38 sua própria cultura. Muitas pessoas lidam com culturas estrangeiras para protegerse do desconhecido.e reforçar o que lhes é familiar. O turismo é uma indústria de serviços temporários, que proporciona um tipo de acolhimento orientado por uma base comercial da hospitalidade (DANN, 1996 p.12-17). A chamada constante para o novo e exótico reflete a linguagem do turismo, principalmente nas descrições de lugares e pessoas. Ao analisar matérias relacionadas ao destino Tailândia, Cohen (1983) identifica atributos como: intocados pela civilização, remota e selvagem, colorido, pitoresca, curiosos, fascinante, quase desconhecido, recémdescoberto. A perspectiva da dramatização (play) permite que a linguagem do turismo explore experiências lúdicas de transformação na realidade cotidiana do viajante. A Disney pode ser um exemplo, não só da passagem para um mundo imaginário dos contos de fadas, mas também para diferentes cenários e períodos históricos, como o oeste americano em 1800, ou como a selva numa ilha deserta do Pacífico Sul. Sob esta perspectiva apresenta-se um turismo que muitas vezes evita qualquer contato do visitante com a cultura nativa, que é usada apenas como um espetáculo desejável (DANN, 1996: 17-23). O autor assinala a importância da verbalização de turistas sobre suas experiências de férias e viagens, que parece estar ficando cada vez mais importante na Internet. Depoimentos na rede são uma forma de feedback aos serviços prestados, mas também permitem uma reflexão sobre o discurso disponível antes da experiência. A perspectiva de conflitos (conflict) afirma que o discurso é moldado pela ideologia e está sujeito a relações de poder em práticas sociais e institucionais. O turismo proporciona às pessoas uma chance de afastar-se da vida cotidiana e ter experiências emocionantes. Esse esforço para criar atrativos turísticos entra muitas vezes em contradição com o passado real e atual das áreas visitadas e seus habitantes (DANN, 1996 p.25).

49 Conceito de Função da Linguagem Aplicado ao Domínio Turístico De acordo com o modelo teórico da comunicação oral de Bühler (1934), a linguagem natural tem três funções básicas: Representação, Expressão e Apelo. Roman Jakobson (1960) expandiu o modelo de Bühler (1934) para seis funções que operam em modos predominantes: 1. A função expressiva: refere-se ao remetente da mensagem e as atitudes do comunicador da mensagem, a utilização da interjeição e discurso enfático da fala, os sentimentos do remetente são revelados por atos de fala (condenação, desculpas, perdão, aprovação, elogio, censura) 2. A função conativa (ou diretiva): refere-se ao receptor da mensagem, linguagem usada para influenciar atitudes e comportamentos do destinatário e uso de vocativo ou imperativo; tenta persuadir, recomendar, autorizar. 3. A função referencial (ou informacional) lida com o contexto cognitivo ou o significado da mensagem. O remetente transmite novas informações para o receptor ou solicita o endereço para indicações pede que o destinatário de informações, os relatórios, descrevendo, afirmando, solicitando, confirmando, refutando são atos de fala referencial. 4. A função fática (ou interação): usado para criar, prolongar ou encerrar contato através de um determinado meio de comunicação, usado para verificar se o canal está funcionando ("Olá, você está me ouvindo? ',' você está me ouvindo?"), bate-papo sobre um tópico (falar sobre o tempo) conversas periféricas ao tema principal, necessário para manter a comunicação. 5. A função metalingüística: é a capacidade da linguagem para falar sobre si mesmo, e códigos que emprega para transmitir significados. Esta qualidade é sobre "reflexividade", inclui questões de gramática e terminologia, como evidências como atos de fala, como "o que você quer dizer?" "Eu não entendia o que estava dizendo!" 6. A função poética: diz respeito ao valor das palavras que refletem em seu próprio benefício, ou seja, como auto-reflexivas; em usos lingüísticos de

50 40 dispositivos como a rima e a metáfora, o código é usado para transmitir significado de uma maneira incomum, há sempre o risco de ambigüidade. A aplicação do conceito de funções da linguagem ao domínio do turismo foi objeto de um estudo longitudinal conduzido na Espanha por Febas Borra (1978) com base em 250 folhetos turísticos publicados durante cerca de 15 anos : 1. Função expressiva: deixou de ser referência para o autor, freqüentemente uso de "nós", nosso, juízos de valor, os registros emotivos, superlativos; 2. Função conativa: É segmentado para um específico mercado. Em vez disso, são imperativos vagos para as pessoas em geral, para ver e fazer as coisas, e muitas vezes injustificados pressupostos sobre o conhecimento técnico cultural do visitante estrangeiro. Função referencial: deve ser a função mais importante (como o objetivo é obter informações sobre um país, região, comunidade etc.), mas na maioria das vezes é menos enfatizada, influenciando desta forma a representação da realidade; 3. Função fática: é difícil adaptar em contexto / escrita pictórica, esforços especiais necessários para manter o interesse do leitor / espectador (fotos incomuns, uso da cor, estrutura de diálogo através de perguntas retóricas, palavras simples, frases curtas, tipo de letra de fácil utilização, o formato user-friendly ); 4. Função metalingüística: expressões subutilizadas como "festa de interesse turístico", "centros de interesse turístico"; 5. Função poética: Mensagem freqüentemente transmitida através de similaridade (metáfora) ou contigüidade (metonímia), mas muitas vezes apenas clichês, expressões redundantes; O ponto de stress entre a linguagem do turismo e outras linguagens seria identificado como falta de identificação do remetente, monólogo, euforia e tautologia (Dann, 1996 p.34-67). Falta de identificação do remetente: muitas vezes o orador / emissor é desconhecido. Turistas (potenciais) têm uma vaga idéia de quem compila os folhetos, panfletos ou anúncios não tem idéia das equipes de sub contratação de psicólogos, sociólogos e especialistas em marketing Monólogo: A linguagem do turismo assume a forma de um monólogo pelo fato de muitas vezes não ser possível identificar a identidade do remetente

51 41 independentemente da confusão de papéis que podem surgir por ter o turismo uma natureza circular, geralmente o falante fala e o ouvinte escuta, as imagens são mostradas sob o ponto de vista do observador. O turismo não é uma necessidade básica como comida ou abrigo, mas é um desejo, uma inveja, algo que pode ser convertida em arte de persuasão. Além disso, a persuasão depende do conhecimento do remetente (DANN, 1996 p. 64). Euforia: O turismo através da visão de alguns autores como (Burke 1996 p.12) que a linguagem do turismo tende a falar apenas em termos positivos sobre os serviços e atrações que promove Na análise de Feras Borra (1978 p.70) concluiu-se que o do discurso do turismo é uma linguagem na forma extrema, uma visão eufórica extrema, uma incontinência verbal com usos de superlativos (DANN, 1996 p.65). Tautologia: Um exemplo citado em Dann, (1996) de Chalfen (1980) descreve turista tirando fotos da Torre Eiffel via linguagem do turismo, panfletos e guias de viagem assumem que a Torre Eiffel é o símbolo de Paris que, portanto, completa o círculo tautológico capturado através de um filme a verossimilhança da imagem mostrada, a experiência turística se resume em experimentar o que se espera experimentar, os turistas dependem da segurança dos clichês. Os turistas quando voltam para a casa às histórias relatadas para seus amigos e vizinhos imitam o discurso da brochura não apenas no que diz respeito temas escolhidos, mas também no que se refere ao conteúdo ideológico. A linguagem do turismo como tautologia gira em sua própria série de círculos lingüísticos. Dann (1996) afirma que para o campo do turismo existe um fenômeno lingüístico para tal afirmação algumas propriedades de classificação da linguagem do turismo foram introduzidas. Observa-se uma asserção da linguagem como uma linguagem de controle social. Esta qualidade é importante para entender e compreender o turismo.

52 A Linguagem do Turismo como Controle Social Segundo Dann (1996 p.69) a definição de turista como uma pessoa que viaja a lazer é uma definição que levou muito tempo para ser construída e percorreu um longo caminho histórico. Pesquisadores referem-se a viagens ao mundo helênico, para os grandes santuários religiosos de Elêusis, Delfos, Olímpia e Epidauros, para esses centros de aprendizagem como Alexandria, Atenas, Rodes e Lesbos, e para as estâncias como Canopus, Memphis e Thebes que eram abertas para visitantes domésticos e internacionais a ambos os domésticos e internacionais. Os Jogos Olímpicos foram naturalmente um evento que atraiu pessoas de muito longe. Mais importante do que estes fatos, no entanto, é a constatação de que essas primeiras formas de turismo foram precedidas de superlotação, a violência da máfia e distúrbios políticos nas cidades clássicas da Grécia e Ásia Menor (uma forma de escape). Foram relatados nos escritos de Heródoto, Safo, Alceu, Anacreonte, Homero. O turismo é sem dúvida uma manifestação cultural mundial, com uma importância econômica forte que movimenta bilhões atualmente. A atividade turística aumenta constantemente, isso resulta em uma fonte vital de renda para a economia local, porém, para equilibrar e preservar os costumes sociais dos destinos de acolhimento do grande afluxo de visitantes é exercido pela indústria do turismo certo controle manifestado através do uso da linguagem adequada. Esta concepção se enquadra numa abordagem onde o turista associa o tempo de férias com liberdade absoluta para compor e satisfazer suas fantasias, paralelamente o setor de turismo atinge um equilíbrio entre a abordagem de clientes e suas motivações com uma influente comunicação persuasiva. O campo da sociolingüística aplicada ao turismo revela um discurso específico de controle que funciona através de um sistema tradicional de símbolos e códigos de linguagem, que é ao mesmo tempo, fundamental para a compreensão de como funciona o turismo. Como um tipo específico de comunicação, representa maior indústria do mundo, sua metodologia segue os padrões de mensagens

53 43 contraditórias com importantes implicações em relação às atitudes humanas, as necessidades, desejos e comportamento. Observa-se que o paradoxo da liberdade e do controle exercido simultaneamente. A informação inicial nos leva a crer que é possível desfrutar de liberdade absoluta, entretanto, a maior parte do discurso passa a informar-nos de como será organizado o transporte, alojamento, refeições e entretenimento. Assim, a seleção de destinos turísticos e participação em eventos, é regulado, sob o pretexto de dar aos turistas a sensação de que não existe nada para se preocupar, ou seja há sempre alguém para se encarregar de todos os arranjos. A linguagem do discurso exerce controle porque exerce a função de comunicar as opções, define parâmetros, e altera o comportamento do consumidor, orientando os turistas para os produtos e serviços específicos (DANN, 1996 p.73-79). Formas de linguagem específicas são empregadas para estabelecer o controle social. O modo imperativo é um dos quatros modos gramaticais do inglês (os outros três são declarativo, interrogativo e exclamativo). Considerando a associação da força elocutória do imperativo é o pedido ou o comando, como por exemplo coma seu lanche, você coma seu almoço agora ou vamos almoçar pedidos e comandos podem ser dados através de outros modos como por exemplo você deverá comer seu lanche neste instante (peremptória declarativa) ou pode vir almoçar agora? (interrogação) ou você parece faminto (exclamação). Fica claro o controle exercido por quem fala sobre quem escuta um processo análogo ocorre na comunicação escrita entre o autor da publicidade e com o cliente. Os guias turísticos mostram mecanismos de controle, não só descrevem paisagens, como também nos dizem o que será encontrado. Caso o turista ignore os conselhos do guia isso causa uma inexplicável frustração de ter perdido a experiência completa sobre o destino ou sobre o evento. O que se encontra nos guias é um modelo representativo do seu próprio país, o que revela que em nenhum guia se tem uma experiência pessoal relatada, ou uma descrição meticulosa do que se pode esperar (ex: os perigos de não se lavar as frutas, moscas, pernilongos, os preços das postagem de cartões) (DANN,1996 p.84). Observou-se que linguagem do turismo é comum com outras formas de expressão, compartilha características similares de função, estrutura, tempo e recurso. Em contrapartida vimos que a linguagem do turismo é diferenciada com

54 44 relação à freqüente falta de identificação com o remetente e o as características do discurso monológico (monological), eufórico (euphoric) e tautológico (tautological). São propriedades divergentes atribuíveis à sua natureza promocional e para a qualidade circular do próprio turismo. Embora se tenha verificado, em seguida, que a linguagem do turismo tem um remetente, um destinatário e uma mensagem, e que opera através de uma série de canais, muito pouco nessa fase foi dito sobre isto. Segundo Dann (1996 p.136) o modelo tradicional dos meios de comunicação de classificação do turismo é baseado numa aproximação do marketing do turismo. Hall (1984), por exemplo, vê a promoção do turismo como uma criação de demanda para um produto. É preciso ter cuidado por ser o turismo diferente de outros produtos, o turismo é um produto intangível e complexo. O produto turístico não pode ser tocado, medido, sentido ou visto antes da propaganda. O turismo é composto por uma serie de serviços constituídos da total experiência. A promoção turística não simplesmente a venda de um quarto de hotel ou o ticket de uma atração é uma atividade multidimensional que inclui: Propaganda (ex: jornal, televisão, rádio, e billboards); Promoção de vendas (ex: shows de viagens, familiarização de vigem, itens especiais como para choques autocolantes) Publicidade (ex: imprensa em festivais) Literatura de venda( ex: brochuras e guias de viagem) Serviços de informação (ex: centros de visitas) Os primeiros três componentes criam uma demanda através de uma imagem positiva do destino juntamente com o esclarecimento sobre o destino. O principal meio de comunicação da publicidade do turismo são os jornais, s, televisão, revistas, rádio (DANN 1996 p.136). Ainda segundo o autor, a demanda pode ser estimulada através dos atributos do destino essas qualidades são trazidas à atenção de um público-alvo e são feitas tentativas de persuadi-lo sobre as vantagens comparativas do destino, são suficientes para promover uma mudança temporária no ambiente doméstico.ele ainda sustenta que a forma como as pessoas nativas estão representadas tende a variar, não só de acordo com o meio, mas também em relação à importância respectiva das imagens metafóricas, ou seja, se eles são retratados simbolicamente as imagens são a minoria do destino, e geralmente ignoram realidade sócio-político

55 45 do local, são amplamente estereotipada em relação a sua na natureza. Em outras palavras, eles são seletivos, principalmente destacando o bonito, atraente, exótica, ou seja como simbolicamente atraente para seu público-alvo. 2.8 Identificando Categorias de Destinos em Capas de Turismo A pesquisa realizada por Okuyama (2004) baseou-se em métodos qualitativos e quantitativos. A parte quantitativa levantou freqüências de temas/países em 750 capas do caderno de Turismo da Folha de S. Paulo, primeiro nos anos 1964, 1974 e 1984, e depois em período contínuo de 1993 até A parte qualitativa baseou-se em análise de conteúdo apenas das capas dedicadas a destinos na América Latina, cujo resultado foi a identificação de cinco categorias descritivas do material e a constatação de que sua eficácia comunicativa advinha de estereótipos. O caderno Folha Turismo é veiculado todas as quintas-feiras como suplemento do jornal para assinantes e também em bancas. Em uma entrevista o editor Silvio Cioffi, do Folha Turismo informou que as pessoas lêem os cadernos como lazer, depois é que elas vão decidir se vão viajar ou não e que os leitores buscam informações com mais perenidade, úteis para quem planeja viagens a longo prazo A extração das categorias a partir da análise das matérias baseou-se em uma amostra inicial a partir da qual foi gerada uma descrição dos conteúdos das categorias. Em seguida o modelo foi testado no restante do material. As categorias foram: 1. TURISMO DE NATUREZA esta categoria trata de destinos onde o apelo está relacionado a atrativos que focam a natureza, como esportes na neve, caminhadas, escaladas, contemplação da natureza etc. 2. TURISMO CULTURAL esta categoria está dividida em quatro subcategorias: cultura popular (legado cultural), comportamento, gastronomia e religiosidade.

56 46 3. TURISMO HISTÓRICO esta categoria está dividida em três subcategorias: sítios históricos, patrimônio histórico e monumentos históricos. 4. TURISMO ECONÔMICO esta categoria diz respeito às capas onde o apelo ressalta os benefícios que a economia do destino proporciona ao turista. Demonstra o interesse do país em se beneficiar com a indústria do turismo comercializando suas belezas naturais. 5. TURISMO POLÍTICO esta categoria diz respeito às capas que demonstram a situação política do país, ou seja, o contexto político torna-se o apelo do destino. Um bom exemplo é Cuba, pois o fato do país ser o que sobrou do comunismo no mundo e ainda estar sob o comando do ditador Fidel Castro à espera de um desfecho histórico. A metodologia proposta buscou descrever modos de organização de experiência semiótico-cognitiva no campo turístico. Foram mapeados cinco marcos de referência relacionados à motivação dos usuários para a atividade turística: Natureza, Cultura, História, Economia, Política. Tais marcos emergiram da análise como resultados de modos de Ver (Steinberger, 2003,2005), ou de estilos cognitivos (Goffman,2006) associados às capas dos cadernos turísticos que tematizaram países e regiões da América Latina. Estas macro-categorias ou marcos de referência estão sujeitas a riscos e a mudanças, seja por manipulação deliberada, seja por interpretações errôneas, ou simplesmente porque são sujeitas a mudanças de chave (Goffman, 2006). O conceito de mudança de chave refere-se a uma alteração do modo de Ver o mesmo lugar ou região de destino turístico, por exemplo, um destino que suscitava interesse para um tipo de turismo mais cultural-religioso passa a constituir-se referência de um turismo mais econômico à medida que a região se fetichiza como área turística e o mercado de souvenir se torna meio de vida para boa parte da população local. Essa perspectiva diacrônica não foi considerada na construção do modelo e a aplicação das categorias não levou em conta esse processo dinâmico. Ainda assim, o marcos de referência que emergiram da análise das capas permitiu identificar algumas representações semânticas padronizadas (frames). Esses casos, no entanto não foram avaliados quanto ao seu impacto nas opiniões e decisões dos usuários quanto aos destinos turísticos mais atraentes. Esta avaliação daria continuidade ao trabalho e poderia ser útil para o projeto de um sistema

57 47 automatizado de recomendações ou de tomada de decisões turísticas. O sistema poderia adotar como ponto de partida as macro-categorias identificadas nos textos da imprensa e renová-las depois com base numa dinâmica de informações oferecidas por usuários que completaram suas viagens. 3. REPRESENTAÇÃO SEMÂNTICA ATRAVÉS DE RELAÇÕES CONCEITUAIS 3.1 Representação de Conhecimento Neste capítulo será apresentada a fundamentação teórica da Linguística Cognitiva em duas vertentes: a Teoria dos Frames (Fillmore) e a Modelagem Lexical (Hudson). Representar o conhecimento é um processo necessário para solucionar problemas complexos de aplicação das tecnologias da linguagem. Conhecimento pode ser definido como informação armazenada ou modelos usados por humano ou máquina para interpretar, identificar, predizer e responder apropriadamente ao mundo externo. De fato, o conhecimento e a inteligência sempre aparecem como dependentes um do outro. A importância de se representar o conhecimento não é apenas para poder recuperá-lo no futuro, mas também raciocinar com ele e, principalmente, criar facilidade para agregar novos conhecimentos. Para que o conhecimento seja armazenado e manipulado por um computador é preciso que sejam adotados modelos adequados ao seu processamento (ARTERO, 2009 p.26). Para Russel e Norvig (2004) representar conhecimento é representar verdades (fatos) em algum mundo relevante: uma base de conhecimentos é um conjunto de representações de fatos sobre este mundo.

58 Conceitos de Ontologia e suas Raízes Semióticas Define-se filosoficamente ontologia com sendo o estudo do que existe e do devemos assumir como existente, a fim de alcançar uma descrição da realidade. Para o campo da Ciência da Informação e Computação uma ontologia é um termo técnico denotando um artefato que é projetado com a finalidade de permitir a modelagem de conhecimento sobre algum domínio, real ou imaginário (GUARINO,1995). O termo ontologia emerge a partir da década de 90 como central para estes campos. Vickery (1997) discute a emergência do termo ontologia na Engenharia do Conhecimento como uma especificação de um mundo a ser representado por um sistema computacional. O trabalho de Gruber (1993 p.199) introduz o uso formal de ontologias no campo da Inteligência Artificial (IA) como uma especificação explícita de uma conceptualização, sendo que o termo conceptualização é definido como uma visão abstrata e simplificada do mundo que desejamos representar para um propósito qualquer. Para este autor, ontologia é um relato sistemático da existência. Para a IA, o que existe é aquilo que pode ser representado. Quando o conhecimento de um domínio é representado em um formalismo declarativo, o conjunto de referência de todos os objetos que podem ser representados nesse domínio é chamado universo do discurso. Uma ontologia descreve um conjunto de objetos e as relações entre eles tal como são refletidas na linguagem com a qual um programa computacional irá representar o conhecimento. Gonzalez e Lima (2003) explica que para construir uma ontologia, deve-se armazenar, juntamente com as definições de conceitos, as relações existentes entre eles que indicam seus relacionamentos semânticos. Por exemplo, em alguns casos uma ontologia toma a forma de uma árvore hierárquica, ou seja, classes são definidas de maneira a herdar os atributos da classe superior. Hudson (2010) lança a pergunta sobre quais os tipos de conexões existentes que devem ser priorizadas, já que as conexões são de diferentes tipos e variam de acordo com o tipo de relação: associação de classe, parte-todo, etc.. Em outras palavras, não se trata de lidar com meras redes associativas nas quais todas as conexões têm o mesmo status e o mesmo significado. Por exemplo,

59 49 a significância de uma relação classe-membro é bem diferente daquela de uma relação parte-todo. Além disso, as conexões são direcionais, então sua significância varia de acordo com o nó final da conexão que está sob consideração. Gonzalez e Lima (2003) afirma que no processo de criação de uma ontologia para um domínio de conhecimento pode-se tentar aproveitar partes de outras ontologias já existentes. Ontologias estão associadas a redes semânticas e são uma espécie de modelo de representação de uma rede cognitiva ou de uma rede social. Sayão (2001) trata da importância dos modelos enquanto recurso metodológico para aquisição de novos conhecimentos, representação e compreensão da realidade. O autor estuda as características, funções e tipos de modelos no campo informacional e define modelo como uma criação cultural, destinado a representar uma realidade, ou alguns dos seus aspectos, a fim de tornálos descritíveis qualitativa e quantitativamente e, algumas vezes, observáveis. Os modelos apresentam uma analogia com o objeto real, entendendo-se por analogia a representação de uma mesma função em diversos materiais e por meio de princípios diversos, que podem ser construídos através de formalismos matemático, fenomenológico ou conceitual. Um modelo tem como objetivo comunicar alguma coisa sobre o objeto da modelagem de forma a gerar um entendimento mais completo sobre a realidade. Baségio (2008) usa um tipo de método top dow supervisionado na identificação de estruturas ontológicas com base na comparação de listas colhidas junto a especialistas. Esses conceitos vêm originalmente dos trabalhos de Charles Sanders Peirce e já foram apresentados no capítulo sobre a construção de representações semióticas. Sowa (2006) é um dos poucos autores da área computacional que se aventurou a estudar Semiótica e a compreender a aplicação das teorias peircianas em soluções de modelagem. Sayão (2001) assinala que as pesquisas nessa área estão evoluindo para os modelos semânticos com base em abstrações advindas da pesquisa em Lingüística. Abstrações semânticas são formas de especificar relacionamentos entre conceitos lingüísticos que trabalham diferenças sutis de significado. As abstrações descritas por Sayão (2001) mais utilizadas nos modelos semânticos são generalização, agregação, classificação e associação.

60 50 Vickery (1997) propõe uma metodologia para análise ontológica mais aprofundada, capaz de resultar de uma especificação formal dos elementos do conhecimento em um domínio de tarefas. Implícito neste processo, projeta-se um modelo de domínio, e criam-se as estruturas formais de dados (base de conhecimento) e procedimentos (motor de inferência). As ontologias têm como objetivo prático oferecer um contexto estrutural de conhecimento para os sistemas computacionais. Segundo Zuñiga (2001), no contexto de sistemas de informação, a ontologia é uma linguagem formal que serve para representar um domínio particular do conhecimento. Há uma estreita relação entre as ontologias e os léxicos computacionais com que os lingüistas trabalham. Lenci, Calzolori e Zampolli (2002) afirmam haver um continuum entre ontologias e léxicos semânticos, ambos representando o conteúdo lexical das palavras. Guarino (1998) destaca a existência de contato entre léxicos computacionais e ontologias. Estes autores concordam que a integração entre a visão lexicográfica e a visão computacional é condição necessária para o desenvolvimento da Web Semântica. 3.3 Construção de Léxicos Computacionais Do ponto de vista lingüístico, os léxicos computacionais apresentam uma relação estreita com as ontologias, ambos organizam o conhecimento semântico das línguas naturais. As ontologias formam uma estrutura conceitual das relações de significados entre os diferentes conceitos que representam determinado conhecimento do mundo. As ontologias que descrevem conceitos mais gerais são as de nível superior, ou top-level, já as de domínio abarcam um vocabulário relacionado a uma área específica (GUARINO, 1998). Os léxicos computacionais que estão mais em evidência na atualidade são o WordNet (FELLBAUM,1998) e o FrameNet (FILLMORE; JOHNSON; PETRUCK, 2006). A concepção do WordNet é fundamentada na semântica relacional. Desta

61 51 forma a representação do conhecimento lingüístico é feita através de synsets (synonym sets), conjuntos de sinônimos. Os synsets tem como função representar conceitos diferenciados por conjuntos de sinônimos, já o FrameNet está estruturado em cenários semânticos. O pressuposto básico da Semântica de Frame tal como se aplica à descrição dos significados lexicais é que cada palavra (em um sentido dado) evoca um frame particular e possivelmente atribui um perfil a algum elemento ou aspecto desse frame. Um frame evocado é a estrutura de conhecimento exigida para compreender um item lexical ou frasal dado; uma entidade com perfil atribuído é o componente de um frame que se integra diretamente na estrutura semântica do texto ou sentença circundante (FILLMORE, 1982). O WordNet é um banco de dados lexical que foi criado para o idioma inglês organizado em uma vasta rede semântica. Foi organizado como um thesaurus, com uma hierarquia construída através de uma relação semântica e uma relação lexical, com links de palavras e synsets de outras palavras O significado da palavra não é considerado somente em termos de synsets parecidos, mas em termos de relações com outras palavras localizadas em diferentes lugares com uma semântica semelhante. Sua função é descrever o significado de substantivos, verbos, adjetivos e advérbios através de seus links com outras palavras com suas categorias sintáticas de relações lexicais via uma semântica conceitual (FELLBAUM,1998). A base de dados lexical FrameNet contém mais de 10 mil unidades lexicais da língua inglesa, sendo mais de totalmente anotadas e um conjunto de mais de 800 frames. A função do FrameNet é documentar a partir de exemplos atestados do inglês contemporâneo a maneira como os elementos de frame (para palavras dadas em significados dados) são gramaticalmente exemplificados em orações do inglês e organizar e exibir os resultados de tais descobertas em um modo sistemático. Mais especificamente, o verdadeiro trabalho dos lexicógrafos do FrameNet é registrar a variedade de padrões combinatórios encontrados no corpus para cada palavra no léxico do FrameNet, apresentar os resultados como as valências das palavras, criar software capaz de derivar o máximo de informações possível, a partir de anotações, e adicionar manualmente apenas aquelas informações que não podem facilmente ser derivadas de modo automático a partir do corpus ou do grupo de exemplos anotados.no FrameNet, as unidades de análise lexical fundamental são frame e unidade lexical.

62 52 O conceito de valência sintática especifica as classes de palavras que podem ser esperadas em combinação com cada tipo de verbo, assim como também as funções gramaticais (sujeito, objeto, etc.). O conceito de valência semântica é descrito em termos de entidades associadas a um cenário (frame) evocado por uma unidade lexical, tais entidades são chamadas de elementos frame. Por exemplo, a unidade lexical esquiar é evocadora do frame estação de esportes de inverno. A descrição semântica do frame prática de esportes radicais inclui os elementos do frame correr, escalar, caminhar. Tratam de destinos onde o apelo está relacionado a atrativos com foco na natureza, como esportes na neve, caminhadas, escaladas, contemplação da natureza. Um exemplo com as palavras turismo, Argentina e natureza no campo de busca da Folha Online poderá ilustrar melhor estes conceitos. Obteve-se um retorno de 74 links de notícias. Analisando uma amostra do primeiro link, constata-se que é um texto do dia 10/06/2010, o título é Confira quais são os cinco melhores destinos para o cicloturismo. Um dos trechos é sobre a Patagônia, na Argentina, que tem como subtítulo Cordilheira dos Andes é cenário de caminho por região de lagos. O próprio subtítulo remete-nos a uma cena de Cordilheira dos Andes. O texto contém expressões do tipo: mas é de cair o queixo, dá pra ver a pedrinha no fundo do lago, você pedala entre o azul dos lagos, o amarelo da paisagem e o branco do topo da cordilheira dos Andes. Tais cenas estão associadas aos frames prática de esportes radicais e contemplação da natureza, confirmando o que Fillmore (1982) diz sobre os frames: são pequenas cenas estáticas ou estados de negócios, simples relações entre entidades que definem os papéis que elas exercem ou tipos complexos de eventos chamados de cenários. Ou seja, os frames são situações abstratas capazes de fazer entender a estrutura semântica de um verbo como síntese das propriedades de tais cenas esquematizadas. Por exemplo, a expressão você pedala entre o azul dos lagos, o amarelo da paisagem e o branco do topo da cordilheira dos Andes evoca uma cena de fruição, interação e contemplação a natureza, uma situação na qual o leitor consegue se imaginar vivenciando a cena, atribui um perfil de leitor cujo gosto está atrelado ao esporte, saúde, e bem estar. Podemos afirmar com Fillmore (1982) que o tipo de frame semântico que mais interessa à construção do FrameNet é aquele que suporta os significados de grande número de palavras. Um deles é o que se pode chamar

63 53 frame de substituição. Uma descrição abstrata deste frame exige o posicionamento de um Lugar e duas entidades distintas (X1 e X2) que possuam histórias com esse Lugar. O estudo de como uma informação é representada pode ser feito através de uma modelagem lingüística. A modelagem lingüística é estudada por Hudson (2010), seu trabalho traduz a linguagem em um conceito de rede. Segundo o autor, o que se sabe sobre a estrutura da linguagem é muito mais detalhado e estruturado do que o que se sabe sobre outras áreas da cognição humana. Propõe que a linguagem seja tratada como uma particular janela dentro da cognição humana, como um caminho para expandir o conhecimento. 3.4 Teorias Linguísticas em Confronto:Hudson e Chomsky O estruturalismo tem origem múltipla, porém é convencional datar seu nascimento a partir da publicação do Cours de linguistique generale de Saussure (1966). Para explicar o estruturalismo é preciso primeiramente distinguir no estudo das línguas as palavras, sincrônico e diacrônico. Os neogramáticos defendem que a lingüística na medida em que é científica e explicativa, tem que ser necessariamente histórica. Já Saussure argumentou que a descrição sincrônica de línguas particulares podia ser igualmente científica; e que também podia ser explicativa. A explicação sincrônica difere da diacrônica ou histórica por ser estrutural em vez de causal: ela fornece um tipo de resposta diferente à pergunta Por que as coisas são como são? Em vez de investigar o desenvolvimento histórico de determinadas formas ou sentidos, ela demonstra de que maneira todas as formas e sentidos estão inter-relacionados num determinado sistema lingüístico, em determinado ponto no tempo (LYONS 2009 p.163) Esta afirmação não é única e pode ser descrita como comum na lingüística moderna. Em Hudson (2010) afirma-se que este pensar sucede da teoria estruturalista, que muito cedo apostou em uma linguagem como um sistema de

64 54 entidades interconectadas ou seja,o legado estruturalista pode ser interpretado como uma rede da linguagem. Esta interpretação opõe-se a idéia de que a linguagem é uma mera coleção desconectada de unidades. A teoria estruturalista defende a linguagem como um sistema comparativo de valor, onde qualquer entidade interconectada é uma rede conceitual (SAUSSURE 1966). Segundo Hudson (2010) aplicação do estudo da linguagem em extratos sociais torna compreensível a dimensão social, lingüística e neural para o estudo da linguagem. Para Hudson (2010) é impossível separar a linguagem das relações sociais, para ele a linguagem é como um fato social, sistema interconectado de elementos e ainda, a linguagem pensada como algo em sociedade. A idéia de que tudo em uma linguagem pode ser descrito como relações e nós isso é aceito como uma das principais premissas da lingüística cognitiva de modo que a Word Grammar (WG) se encaixa nesta nova tradição. Toda linguagem tem uma estrutura, e consiste de padrões abstratos que possuem características formais, o mesmo acontece com outras teorias da gramática como : Cognitive Grammar, Construction Grammar, e Stratificational Grammar e também o Systemic Functional Grammar, as teorias que descendem da Word Grammar (HUDSON,1971; HOLLIDAY,1985). Na visão de Chomsky (1995) a idiossincrasia pertencente aos fatos no léxico são meramente um conjunto de elementos lexicais.esta separação radical entre regras e léxico é central para o trabalho da lingüística moderna. Pinker (1998) põe foco na morfologia, onde as regras são manipuladas enquanto irregular e semiregulares enquanto as exceções são tratadas em uma rede lexical. Criou-se uma fronteira geral e específica que geralmente dificulta a análise. Em uma análise de rede uma mesma rede apresenta fatos mais gerais (a gramática) e menos gerais (o léxico), não há uma divisão entre as duas embora uma rede inclua fatos mais específicos do que o léxico ou seja, proferidos ou escritos através de tokens de palavras (outros itens que estejam dentro da experiência). Os termos token e type são usados para estabelecer seus significados. Isso significa que uma palavra pode ter vários sons dependendo do lugar no qual ela é pronunciada, token esta relacionado à fonética, já type é a forma como a palavra é escrita ou seja, é uma estrutura rígida.

65 55 O trabalho de Hudson (2010) recai sob dois blocos teóricos, um toma a linguagem como sendo algo apreendido através da experiência uma linguagem onde é assumido que como sendo baseada no uso (BARLOW ; KEMMER, 2000). Hudson opõe-se à teoria nativista de Chomsky (1995), (Gramática Universal) que postula que a linguagem humana é inata. O debate é em parte sobre mecanismos de aprendizagem e outras questões psicológicas que têm implicações importantes para a teoria lingüística. Uma análise de rede conceitual esta sobre uma perspectiva holística ao invés de focalizada, em Hudson (2010) não há um conjunto pré- definido de relações, a maioria dos conceitos são apreendidos com a experiência. Dada a diversidade da experiência humana prevemos uma variedade de conceitos que são conceitualmente apresentados através da hierarquia ISA. A proposta para a representação das informações do turismo será de analogias proposta por Hudson (2010) quando se refere a construção de uma rede lingüística onde as conexões são de diferentes tipos, de acordo com o tipo de relação que elas representam: algumas conexões mostram associação de classe, outras mostram relações parte-todo e assim por diante. Em outras palavras, nós não estamos lidando com meras redes associativas nas quais todas as conexões têm o mesmo status e o mesmo significado. Por exemplo, a significância de uma relação classe-membro é bem diferente daquela de uma relação parte-todo e um sentido de palavra diferente de seu sujeito gramatical e desta realização morfológica. Além disso, as conexões são todas direcionais, então a sua significância varia de acordo com o final da conexão que está sob consideração: por exemplo, em John ronca, John é o sujeito de ronca, mas não vice-versa. Uma relação destaca-se de todas as outras como particularmente fundamental: a relação ISA usada na classificação, como em Dick é um lingüista ou Penguin is a bird (O pingüim é uma ave). Esta relação e o seu nome são parentes das redes semânticas da recente Inteligência Artificial (IA) mas naturalmente ela também é dos sentidos ordinários do verbo ser (como em Dick é um lingüista) e é a base de qualquer enciclopédia ou ontologia. Dificilmente é necessário reforçar a importância desta relação. Como a base para toda a classificação, ela também é fundamental para toda a generalização. Por exemplo,

66 56 qualquer coisa que nós saibamos sobre Ave generaliza com qualquer coisa que é uma Ave em outras palavras, para qualquer ave em particular ou tipo de ave. Este processo de generalização é herança. A herança desempenha um papel fundamental em todas as redes conceituais Hudson (2010) chama de redes de herança. Em resumo, estas redes permitem generalizações graças às conexões que são rotuladas ISA Em Hudson (2010) o esqueleto ISA é descrito como uma relação muito mais complexa que uma mera hierarquia porque um nó ISA pode ser mais que outro nó. Esta associação múltipla é parte da vida diária; por exemplo, O cachorro é um bicho como o Mamífero e cada ISA são muitas diferentes super-categorias. As múltiplas relações ISA são também lugares comuns na língua; por exemplo, o lexema tentar é um Verbo, uma palavra inglesa e formal e a palavra inflexionada tenta é um lexema no singular do presente. Em geral, estas super-categorias separadas carregam propriedades ortogonais (isto é, independentes), mas elas podem entrar em conflito e quando isso ocorre o conflito não pode ser resolvido, exceto por uma regra; isto sugere porque não se pode dizer * I amn t embora se saiba perfeitamente bem o que seria se isso pudesse ser dito Hudson (2000). Construir uma modelagem conceitual através de redes lingüísticas e descrever como são construídas a interações dentro da rede, é preciso que primeiramente seja extraído um corpus lexical. Sardinha (2004 p. 3) que descreve a Lingüística de Corpus como sendo a exploração da linguagem por meio de evidências empíricas, extraída por computador. O objetivo é a coleta e a exploração de corpora, ou conjunto de dados lingüísticos textuais coletados criteriosamente, com o propósito de servirem para a pesquisa de uma língua ou variedade lingüística. A representação do conhecimento turístico latino-americano em Ontologias permite aplicações como a indexação automática de textos e estruturação de redes semânticas. As ontologias também podem servir como estrutura de conhecimento para a integração de bases de dados ou ainda pode ser utilizadas como fonte de conceitos para criação de outras ontologias mais especializadas (BREUKER, 2004). Uma ontologia facilita a busca e extração de informações e tem uma série de aplicações como, por exemplo:

67 57 Sistemas de busca na web web semântica Sistemas de pergunta/resposta Bibliotecas digitais Comércio eletrônico Integração de informação Extrair conhecimento de domínio e fornecer uma compreensão consensual do domínio; Permitir a comunicação entre sistemas computacionais e entre sistemas e humanos. 3.5 Tipos de Ontologias Associados as suas Funções As ontologias turísticas podem ter diversas funções, um dos critérios para a criação de uma ontologia é justamente a função a que ela se propõe. Ela pode servir como fonte de metadados para indexação automática de textos turísticos e para estruturação de redes semânticas. Podem ser usadas como fonte de conceitos para a criação de outras ontologias mais especializadas (BREUKER, 2004). Para sustentar a criação de uma ontologia turística citamos o trabalho de Ferreira e Putnik (2008) que trata do desenvolvimento da Open Tourism Initiative, uma iniciativa global que tem como proposta tecnológica de integração de sistemas, suportada por um mecanismo de brokering entre os diferentes intervenientes, capaz de suportar a reconfiguração de serviços a prestar.guarino (1998) diz que diferentes categorias de ontologia podem ser desenvolvidas de acordo com seu nível de generalidade.o autor identifica quatro categorias Figura 2. Ontologias top level: descrevem conceitos muito genéricos, tais como espaço, tempo, matéria, objeto, evento, ação e outros. Estes seriam, a princípio, independentes de domínio e poderiam ser reutilizados na construção de novas ontologias. Ontologias de domínio: e de tarefa - descrevem vocabulários relativos a um domínio, uma tarefa ou uma atividade genérica através da especialização de conceitos presentes na ontologia de nível superior. Descreve o vocabulário

68 58 relacionado, por exemplo: medicina, automóvel ou um domínio genérico como diagnóstico, venda Ontologias de aplicação: descrevem conceitos em função tanto de um domínio quanto de uma tarefa em particular, que muitas vezes são especializações de ambas as ontologias relacionadas. Conceitos em ontologias de aplicação correspondem, de maneira geral, aos papéis desempenhados por entidades do domínio no desenrolar de alguma tarefa. Ontologia de nível superior Ontologia de domínio Ontologia de tarefa Ontologia de aplicação Figura 2 Categorização de ontologias Em Ferreira & Putnik (2008) o texto trata de salientar a necessidade de integrar sistematicamente as Tecnologias de Informação e Comunicação (TIC) o que seria um desafio para os gestores e cientistas da computação. Os autores defendem a necessidade de uma virtualização dos serviços de turismo por ser esta uma atividade que obtém um novo enquadramento sócio-tecnológico, cada vez menos local, mais global e atemporal. O objetivo dos autores é desenvolver uma arquitetura semântica, tecnicamente adjetivada de ontologia, capaz de suportar a integração e processamento de informação relacionada com a atividade de turismo. As diretrizes são a descrição estruturada dos Objetos de Turismo (OT) através de metainformação específica e a criação de mecanismos de brokering capazes de neles navegar e descobrir inter-relações ponderadas, a maior parte das vezes marcadas pela temporalidade de informação útil ou disponível.

69 Conceito de Redes Semânticas Rede Semântica é um termo usado pela Lingüística para definir a rede de relações entre palavras de um língua. Uma rede semântica consiste de um conjunto heterogêneo de objetos representados por um grafo, em que nos representam objetos e os arcos representam relações binárias entre objetos. A Rede Semântica como componente de um software é um conjunto de dados e processos que permite indexar e recuperar informações em qualquer hierarquia. As redes são capazes de simular o modelo psicológico da memória associativa, permitindo assim associações entre objetos com características em comum. Assim, um pássaro que tem asas, lembra também um avião. Como o avião tem um motor, ele lembra um automóvel ou seja, objetos que compartilham dos mesmos atributos podem ser associados a uma rede (ARTERO, 2009 p.42). Uma contribuição importante foi dada por Quillian(1968) que propõe a um modelo computacional da memória humana chamado memória semântica. Este modelo faz uso do formalismo onde conceitos são representados por nos, e as relações entre conceitos, por arcos. Para a IA, existem vários comportamentos inteligentes que dependem de conhecer o significado das palavras, como por exemplo a tradução por máquina e a compreensão de texto. O formalismo das redes semânticas desenvolvido por Quillian foi uma tentativa de realizar uma representação operacional do significado das palavras. No seu modelo o significado de uma palavra pode ser expresso pela relação desta com outras palavras.isto conduz ao conceito de sentido das palavras, ou seja, uma palavra pode ter vários significados dependendo do contexto no qual ela está sendo utilizada. 3.7 Redes Sociais e Redes Semânticas Redes sociais são um grupo de indivíduos que, de forma agrupada ou individual, se relacionam uns com os outros com um objetivo específico. Para

70 60 Hanneman (2001) uma rede pode ser definida como um conjunto de nós relacionados por um conjunto de laços. Não vamos nos deter em explicar a teoria de Redes Sociais, em Santos (2010) há um referencial teórico detalhado. Para a nossa pesquisa a base teórica foi estabelecida por Hudson (2010), que muito tem em comum com a teoria das redes sociais entretanto o foco é a linguagem, entendida com uma rede conceitual. Uma rede social é um conjunto de atores (ou pontos, ou nós, ou agentes) que podem ter relacionamentos (ou pontes, ou laços) com qualquer outro. Redes podem ter poucos ou muitos atores, e um ou mais tipos de relações entre os pares de atores. Para construir uma compreensão hábil de uma rede social, uma completa e rigorosa descrição de um padrão dos relacionamentos sociais é um necessário ponto de partida para a análise. (HANNEMAN, 2001 p.18). Segundo Hudson (2010) qualquer sistema de entidades interconectadas é uma rede sob o significado cotidiano normal desta palavra, portanto o legado estruturalista pode ser interpretado como a visão da linguagem em forma de uma rede, visão esta que todo lingüista moderno certamente teria em contraste com a idéia de que a linguagem é meramente uma coleção de unidades desconectadas. Dizer que um país é um destino é uma simplificação, o que se pode dizer é que dentro de cada destino existem localidades e atrativos turísticos que representam cada país. Nesta pesquisa as entidades coletivas tais como Caribe, América do Sul e América Latina estão sendo tratadas como entidades individuais sem diferenciação. América do Sul, América Latina e Caribe são conceitos hiperônimicos, ou seja são conceitos que pertencem ao mesmo campo semântico de outras mas com um sentido mais abrangente. Portanto toda vez que são citados estão contendo os respectivos países tratados coletivamente. America do Sul, América Latina e Caribe representam conceitos plurais e ao mesmo tempo entidades coletivas. Na composição da lista de destinos foram tomadas como referência 31 expressões com valor de topônimos, sem distinguir se são individuais ou coletivas.

71 61 Entidades coletivas como Caribe é uma relação hiperônimica ou seja é uma relação na qual o termo subordinado implica o termo subordinante mas não viceversa.um exemplo é Cuba um termo subordinado ao termo subordinante Caribe ou América Latina. Já México é um termo subordinado ao subordinante América Latina. Isso significa que a mensuração da expressão Peru não incluem o conceito Peru eventualmente incluso em América do Sul e América Latina. A pesquisa baseia-se prioritariamente em expressões lexicais. Em termos de Saussure a mensuração aplica-se ao significante palavra e não ao significado objeto/conceito. Já em Pierce a mensuração aplica-se a um signo (significante usado para representar o objeto) e não a um designatum (o objeto/conceito significado). As Redes Semânticas são modelos avançados e complexos de representação de conhecimento que combinam o conhecimento em um grafo orientado. Uma rede semântica consiste em um conjunto heterogêneo de objetos representado por um grafo, em geral, representam objetos e os arcos representam relações binárias entre objetos. Em sua versão mais simples, usam nos para objetos, situações e conceitos, e arcos para representar as relações entre eles. As redes léxico semânticas são redes de itens ou expressões lexicais que compartilham atributos semânticos. Para recuperação da informação uma abordagem em rede é uma maneira produtiva para se recuperar textos em uma base de dados. Os instrumentos selecionados a seguir são largamente utilizados na literatura a redes sociais entretanto, aplica-se a teoria de redes sociais a redes semântica. A análise de redes comumente se apropria de dois campos da matemática: a teoria dos grafos a álgebra matricial, que fornecem instrumentos para representar os padrões de laços entre os atores sociais. Segundo Hanneman (2001p. 18 ) uma razão para usar técnicas matemáticas e gráficas em uma análise de redes sociais é para representar as descrições das redes de forma concisa e sistemática Ainda segundo o autor, ao utilizar estas técnicas é possível habilitar o computador a armazenar e manipular a informação de forma mais rápida e acurada do que se isso fosse feito manualmente e há o benefício também de que os grafos e matrizes possuem regras e convenções.

72 62 O ponto de partida para a análise das propriedades de uma rede social é calcular o número total de atores e o número possível de laços e os que estão efetivamente presentes (HANNEMAN, 2001). Na análise de redes serão empregadas métricas em relação ao tamanho de uma rede, ou seja, o tamanho de uma rede é dado pelo total de atores que a compõe, é fundamental para a estrutura dos laços, pois os recursos e a capacidade que um ator tem para formar e manter laços é limitada: à medida que uma rede torna-se maior, o número de laços presentes diminui; acentuam-se os buracos estruturais (BURT, 1992). A quantidade de pares ordenados presentes na rede: depende do tipo de laço que há entre eles. No caso da rede léxico semântica em que os nos são os países e as relações são as co-ocorrências lexicais em relação aos países, os laços são direcionais, ou seja, há mais de um autor como transmissor e outro como receptor, a expressão matemática que informa essa quantidade é: N = K * (K - 1) Sendo que N corresponde ao número de pares ordenados e K representa o número de atores que compõem a rede. Densidade: esta medida é definida como a proporção de todos os laços que podem estar presentes dentre o total de todos os possíveis e informa o nível de conexões diretas entre atores da rede. Como a rede a ser estudada é composta de laços direcionais, a equação que fornece a densidade é: Sendo que D é a densidade, I constitui o número de laços presentes e n o total de atores. D = I n(n - 1) Distância: é a medida do intervalo entre determinado ator e os demais atores da rede. A forma de inserção dos atores na rede é mais complexa do que a simples análise de conexões diretas/adjacentes, pois dois atores podem estar indiretamente conectados. Atores que estão conectados por uma seqüência curta de laços ou que têm maior número de conexões são mais estáveis e, portanto,apresentam maior previsibilidade de comportamento. Existem três formas de analisar as distâncias entre os atores na rede: o primiero caminho, que é a seqüência de fatores e relações

73 63 que começam e terminam com os atores; o segundo é o caminho onde os atores e as relações podem ser contadas apenas uma única vez e o terceiro é a trilha, que é o caminho que inclui qualquer laço apenas uma vez, embora os atores intermediários possam entrar mais de uma vez na constituição da trilha. Distância geodésica: é a menor seqüência de laços (ou passos) que conectam um par de atores. A distância geodésica está direcionada a laços mais eficientes, entretanto, há casos em que a conectividade de toda a rede tem mais relação quando se considera todos os laços e não somente os mais eficientes. Existem diversos algoritmos para analisar as conexões entre os pares de atores, neste trabalho será utilizado o fluxo máximo que indica o número de atores que se reportam a um ator fonte, por meio de laços mantidos entre ele e a sua vizinhança, baseando-se na concepção de que conexões fracas entre dois atores estão relacionadas na falta de opções relacionais entre os mesmos. Grau de Centralidade: indica o número de atores com os quais um ator tem laços diretos/adjacentes e apóia-se na concepção de que atores que possuem mais laços com outros atores estão em posição vantajosa por terem mais alternativas para atingir certos objetivos e mais acesso a recursos presentes na rede, desfrutando assim de maior grau de independência. O grau de centralidade mede a dispersão dos graus de centralidade dos atores numa rede qualquer em comparação com uma rede estelar perfeita de mesmo tamanho (SCOTT, 2000). Grau de Proximidade: atores que são capazes de alcançar outros atores por meio de passos de comprimento mais curto ou que assim podem ser alcançados por outros atores, encontram-se em posição favorável. Este grau tem a desvantagem de levar em conta apenas os laços diretos que um ator tem com outros atores, os quais podem tem poucas conexões com o restante da rede. O grau de proximidade de um ator é calculado através da inversão da soma das distâncias geodésicas desse ator em relação aos outros atores vezes a menor soma das distâncias geodésicas encontrada na rede. No caso de uma rede com 62 laços direcionados, é preciso fazer a distinção entre grau de proximidade de entrada e grau de proximidade de saída (SCOTT, 2000). Grau de Intermediação: admite que um ator esteja numa posição favorável se ele faz parte das conexões (distâncias geodésicas) que ligam outros pares de atores

74 64 na rede e se desempenha o papel de intermediário das interações entre esses pares de atores. O grau de intermediação de um ator consiste na razão entre a soma de todos os passos geodésicos de todos os pares de atores da rede e o número de vezes que esse ator integra tais passos, multiplicado por cem (Scott, 2000). Esse índice registra o grau de afastamento de toda a rede em referência à rede estelar perfeita de igual tamanho. O conjunto Lambda (Lambda set): classifica os laços existentes na rede de acordo com o fluxo que flui entre eles e mostra os conjuntos de atores que, se retirados, mais obstruiriam o fluxo entre todos os membros da rede.

75 65 4. REPRESENTAÇÃO SEMÂNTICA POR MÉTODOS ESTATÍSTICOS A decisão de continuar trabalhando com textos jornalísticos como referência para a extração de representações semânticas dos destinos turísticos latinoamericanos impôs a necessidade de circunscrever o objeto de estudo desta pesquisa às representações dos destinos tal como descritos pela mídia jornalística eletrônica. Para uma seleção adequada do material, buscou-se o apoio da Lingüística de Corpus, subárea da Lingüística Computacional que se dedica ao estudo de métodos rigorosos de extração de informações textuais. Um corpus é definido como: Um conjunto de dados lingüísticos (pertencentes ao uso oral ou escrito da língua, ou ambos), sistematizados Segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativas da totalidade do uso lingüístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar vários resultados e úteis para a descrição e análise (SANCHEZ 1996 apud SARDINHA, 2004 p.18) A Lingüística de Corpus inseriu-se no crescente uso de métodos estatísticos que utilizam um grande volume de texto para a extração de dados e informações nas mais diversas áreas da Lingüística e do Processamento da Língua Natural (PLN). Pesquisas que utilizam corpus já existem há muito tempo, na antiguidade e na Idade Média já eram produzido corpus de citações da Bíblia, no século XX muitos pesquisadores se debruçaram na descrição da linguagem por meio de corpora que não eram eletrônicos, a coleta e análise eram feita de forma manual. Outro fato é a ênfase dada aos trabalhos desta época, era o ensino de línguas, hoje o foco é a descrição da linguagem, embora tenha ressurgido um interesse no emprego de corpora na sala de aula (BERDER- SARDINHA, 2004 p.19). A Lingüística de Corpus trata segundo Berder- Sardinha (2004 p.19) da coleta e da exploração de corpora. Para o nosso estudo contribui para a análise e construção de um modelo conceitual através de redes lingüísticas. Buscamos descrever como são construídas a interações dentro da rede para isso é preciso que primeiramente seja extraído um corpus lexical.

76 66 Berder-Sardinha (2004 p.3) descreve a Lingüística de Corpus como sendo a exploração da linguagem por meio de evidências empíricas, extraída por computador. O objetivo é a coleta e a exploração de corpora, ou conjunto de dados lingüísticos textuais coletados criteriosamente, com o propósito de servirem para a pesquisa de uma língua ou variedade lingüística. Conforme Berder-Sardinha (2004 p. 3) o sentido original da palavra corpus corpo, conjunto de documentos por exemplo: dicionários, corpora de citações bíblicas etc. Duas características marcam os estudos da linguagem por meio de corpora, a primeira diz respeito aos corpora que não eram eletrônicos, eram coletados e conservados manualmente e a segunda característica é que a ênfase desses trabalhos era o ensino de línguas. 4.1 Histórico da Linguística de Corpus Foi Randolf Quirk em 1959, que compilou um corpus não computadorizado planejado para 1 milhão de palavras, tornou-se referência para outros corpora. A construção deste survey foi definida por um número fixo de textos (duzentos) e uma quantidade igual de palavras para cada texto (5000), tudo foi organizado em fichas de papel, cada uma contendo uma palavra do corpus inserida em dezessete linhas de texto. As palavras foram analisadas gramaticalmente, com cada ficha recebendo uma categoria gramatical. Este estudo serviu de base para o que temos atualmente, computadores que fazem a identificação de traços gramaticais automaticamente. Este corpus foi transformado em um corpus eletrônico em 1989, entretanto sua parte falada foi computadorizada antes e ficou conhecida como London Lund Corpus. Com a popularização dos computadores o acesso dos pesquisadores ao processamento da linguagem natural permitiu um melhor aproveitamento, a inclusão de novas tarefas mais complexas e formas mais eficientes, como a aumento da capacidade de armazenamento. A evolução da Lingüística de Corpus deve-se sem dúvida os meios de aproveitamento inseridos pela tecnologia.

77 67 No Brasil segundo Berber-Sardinha (2004 p.3) em comparação a países da Europa a Lingüística de Corpus ainda esta em estágio inicial. A pesquisa é voltada ao Processamento de Linguagem Natural, à Lexicografia e à Lingüística Computacional Na língua inglesa três corpora servem como marcos de referência histórico: Brown, BNC, e Bank of English. O corpus Brow é o pioneiro já o BNC foi o primeiro a conter 100 milhões de palavras e dentre os megacorpora, o único disponível para a compra. O Bank of English é um corpus monitor, orgânico em crescente expansão em detrimento dos outros dois que são corpora de amostragem, planejados e fechados. 4.2 Fundamentação Teórica Segundo Berber-Sardinha (2004 p.30) a Lingüística de Corpus está inserida em um quadro conceitual de base empirista, ou seja, é uma visão da linguagem como sistema probabilístico. Na lingüística, empírico significa [...] primazia aos dados provenientes da observação da linguagem. Este direcionamento contrapõe a uma visão racionalista da linguagem, racionalista na sua fundamentação onde o estudo da linguagem acontece por meio da introspecção, como forma de verificar modelos de funcionamento estrutural e processamento cognitivo da linguagem. Berber-Sardinha (2004 p. 30) aponta divergências entre as posições filosóficas, de um lado Holliday, seguindo a tradição empirista de outro, Chomsky que enfatiza a determinação de quais agrupamentos sintáticos são possíveis, dado o conhecimento que um falante nativo possui de sua língua contrapondo esta visão à lingüística de base empirista descreve a probabilidade dos sistemas lingüísticos, dados os contextos em que os falantes os empregam. Ainda sobre a Lingüística de Corpus há controvérsias entre autores sobre a definição do status da área uns consideram uma abordagem outros uma metodologia. Para Gerber e Vasilévski (2007 p.64) ao tratá-la por metodologia

78 68 amplia-se o seu campo de atuação e engloba-se o seu uso como abordagem, tendo em vista que uma abordagem é menos restrita e menos sistemática. Já Berder- Sardinha, (2004 p.37) traz o debate sob visão de vários autores inclusive questiona: é disciplina ou metodologia? Para ele fica claro que não é uma disciplina porque seu objeto de pesquisa não é delimitado como em outras áreas entretanto, para ser uma metodologia segundo Berber-Sardinha (2004 p.36) depende da definição de metodologia ou seja, se entendermos metodologia como um instrumental não podemos dizer que é uma metodologia porque a Lingüística de Corpus não se resume a um conjunto de ferramentas porém, se adotarmos o conceito de metodologia como um modo típico da aplicar um conjunto de pressupostos de caráter teórico, então a Lingüística de Corpus pode ser vista como uma metodologia. Berber-Sardinha (2004 p.3) traduz de forma funcional o conceito sobre a Lingüística de Corpus [...] ocupa-se da coleta e da exploração de corpora. Dedica-se à [...] exploração da linguagem por meio de evidências empíricas, extraídas por computador O propósito da lingüística de corpus é a análise de exemplos reais, ou seja, estudar a língua a partir da análise de grandes quantidades de textos reais. Essa metodologia assim como descreve (GERBER; VASILÉVSKI, 2007 p.46) [...] admite que seja desenvolvida uma interpretação do fenômeno em estudo baseada na intuição do pesquisador para um confronto com os resultados da análise, mas não é necessário utilizar predefinições, mesmo intuitiva assim sem qualquer expectativa observam-se e classificam-se os dados propriamente selecionados para o trabalho, entretanto é de fundamental importância que ele sejam autênticos e que o contexto seja preservado, uma vez que o propósito geral desse tipo de estudo é averiguar o desempenho da língua em seu dinamismo natural. A partir da análise de um número significativo de dados. Em Gerber e Vasilévski, (2007p. 46) destaca-se o aspecto quantitativo que esta relacionada à constância do uso de elementos da língua e o trio formado pela lingüística de computacional, pela lingüística de Corpus e pela Estatística por sua eficiência no tratamento quantitativo e na testagem dos dados. Portanto, fica evidente que um corpus deve ser compilado seguindo critérios definidos para isso nos apoiamos na literatura de Berber-Sardinha (2004).

79 Critérios para a Coleta de um Corpus Um corpus deve ser planejado e concretizado seguindo critérios lingüísticos de seleção e defini-se como sendo: Um conjunto de dados lingüísticos (pertencentes ao uso oral ou escrito da língua, ou ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso lingüístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar vários resultados e úteis para a descrição e análise (SANCHEZ 1996 p. 8-9). Esta definição de corpus caracteriza-se completa dentre outras porque possui pontos como origem, propósito, composição, formação, representatividade e extensão que são criteriosamente importantes na concepção do corpus (BERDER- SARDINHA, 2004 p.18) Berder-Sardinha (2004 p19) resume alguns pontos importantes: a origem dos dados deve ser autêntica, sua proposição deve ter a finalidade de ser um objeto de estudo lingüístico, sua composição deve ser criteriosamente escolhida e os dados devem ser legíveis por computador, deve representar uma variedade lingüística e deve ser vasto para ser representativo. Quatro pré-requisitos são classificados para a formação de um corpus computadorizado (BERDER-SARDINHA, 2004 p.19): 1. O corpus deve ser composto de textos autênticos, em linguagem natural. Não podem ter sido produzidos com o propósito de serem utilizados para a pesquisa lingüística, e não podem ter sido criados em linguagem artificial. 2. Autenticidade dos textos ou seja, escritos por falantes nativos caso contrário deve-se atribuir como corpora de aprendizes learner corpora 3. Deve-se haver um critério para a escolha do conteúdo do corpus. Os princípios devem seguir as condições de naturalidade e autenticidade.deve obedecer a um conjunto de regras estabelecido por seus criadores de modo que correspondam as expectativas ou seja um corpus deve ser representativo no seu contexto.

80 70 4. Representatividade. Entende-se como um conjunto representativo de uma variedade lingüística ou mesmo de um idioma. A origem do corpus deste trabalho é caracterizada por apresentar dados autênticos, no qual representa uma extensa gama de noticias na qual tomamos como sendo representativo para descrever a América Latina através do Jornal Folha de S. Paulo na internet, Folha.com. No presente propósito, o corpus tem por finalidade ser um estudo lingüístico relacionado ao jornalismo de turismo. Quanto à composição corpus foi criteriosamente definido por busca de palavras-chaves. A formatação que se segue é legível por computador. Em se tratando da representatividade é representativo na língua portuguesa. E para concluir o ponto de extensão é suficientemente grande para que seja representativo. A Lingüística de Corpus utiliza-se de uma nomenclatura para definir o conteúdo e o propósito dos corpora em Berber-Sardinha (2004 p.21) são apresentados alguns tipos que servem como apoio para ao trabalho em questão. Os tipos principais utilizados para a concretização do corpus são: modo, tempo, seleção, conteúdo, autoria, disposição interna e finalidade. Em se tratando de modo o agrupamento sugerido por Berber-Sardinha (2004) existem dois tipos o modo falado e o modo escrito, optamos pelo modo escrito devido a um extenso material disponível no Jornal Online. Quanto ao tempo selecionamos um período de tempo sincrônico, deixamos de lado a tipologia do tempo diacrônico que compete vários períodos de tempo Representatividade do Corpus A representatividade segundo Berber-Sardinha (2004) se refere ao tamanho da amostra. A extensão do corpus é uma característica que exerce uma função representativa de um sistema probabilístico que é a linguagem no qual abrange toda a variabilidade de uma população, no qual certos traços são mais freqüentes que outros.

81 71 (...) podem-se diferenciar palavras entre aquelas de maior freqüência e as de menor freqüência, sendo que a diferença entre ela é relativa. Assim, algumas palavras têm freqüência de ocorrência muito rara e, para que haja probabilidade de ocorrem no corpus, é necessário incorporar uma quantidade grande de palavras. Portanto, quanto maior a quantidade de palavras, maior a probabilidade de aparecerem palavras de baixa freqüência. (BERBER-SARDINHA, 2004 p.23). Assim sendo, a representatividade esta atrelada a questão da probabilidade. A linguagem é de caráter probabilístico afirma Berber-Sardinha (2004 p.23) havendo assim a possibilidade de estabelecer uma relação entre traços que são mais comuns e menos comuns em determinado contexto. Entende-se, portanto que um corpus deva ser um conjunto representativo de uma variedade lingüística ou mesmo de um idioma. No entanto, essa questão da representatividade divide pesquisadores que trabalham com corpus em dois grupos: aqueles que acreditam que a representatividade esta relacionada com o sentido das palavras, ou seja, na qualidade de gêneros, assuntos e tipos textuais de um corpus e aqueles que acham que a representatividade se consegue com um grande volume de dados.na primeira linha, são encontrados pesquisadores como Sinclair (1991) e na segunda Quirk (1985) (CHURCH; MERCER, 1993: p.17-19). Ocorre que em certas pesquisas, como a construção de um dicionário é necessário um grande volume de dados para encontrar a maior quantidade de significados de uma dada palavra. Uma vez coletados, formatados e nomeados, o próximo passo é a organização dos arquivos em uma estrutura coerente e de fácil manuseio. Segundo a literatura, não há regras para esse tipo de procedimento. Alguns corpora, por exemplo, podem ser organizados em pastas hierarquizadas, outros com textos salvos em arquivos separados, outros ainda com um texto em cada pasta. Entretanto, Berder- Sardinha (2004 p.72) salienta importantes considerações para qualquer tipo de organização de corpus: 1ª - Os textos devem estar em uma pasta principal em que só existam textos do corpus. 2ª - Seja criado uma subpasta que indique a versão atual do corpus, por exemplo, 00.

82 72 3ª - As subpastas criadas devem refletir seu conteúdo, isto é, que tenham nomes que indiquem o tipo de texto, o assunto, etc. 4.3 A Linguística de Corpus e a Linguística Computacional A Lingüística Computacional abarca a modelagem lógica da língua natural sendo responsável pelo desenvolvimento de técnicas computacionais para o processamento da linguagem humana. PLN é um campo de pesquisa interdisciplinar que reúne competências da Lingüística e da Informática na aplicação de algoritmos de análise e geração de textos em um determinado idioma (língua natural) com apoio de ferramentas computacionais (BIRD et. al. 2009). A Lingüística Computacional portanto, é o estudo da ciência lingüística sob uma perspectiva computacional, sendo uma área interdisciplinar tendo como objeto de estudo a modelagem lógica da língua natural. A Lingüística Computacional tem sua origem junto com o computador, veio da necessidade de se traduzir, em plena segunda guerra mundial, informações encontradas em russo. Assim surgiram os primeiros programas de tradução automática, além desses estudos outros trabalhos foram incorporados como ferramentas de ortografia e gramática, contar palavras, auto resumo, localização de pequenos textos e separação de sílabas (VASILÉVSKI, 2007 p. 78) Usando Ferramentas de Análise de Texto O problema em domínios semelhantes e a metodologia serão descritos nos textos selecionados abaixo, fazem parte da coletânea de artigos do livro cujo título é Informação e Tecnologias de Comunicação em Turismo, esta conferência aconteceu em Innsbruck na Áustria, O primeiro é intitulado etblog Analysis- Mining

83 73 Virtual Communities using Statistical and Linguistic Methods for Quality Control in Tourism retrata o impacto das comunidades virtuais nas organizações turísticas, ou seja, em um passado recente as organizações turísticas focavam sua presença em web sites ou portal web como um contribuinte ativo para a Web enquanto os visitantes assumiam uma postura passiva em relação às informações. Os blogs e as comunidades virtuais proveram um caminho que modificou este comportamento passivo do consumidor para uma posição ativa, por esse motivo é que as organizações turísticas especulam sobre o comportamento dos viajantes nos blogs, existe uma necessidade em conhecer melhor as comunidades virtuais. O objetivo em Waldhor e Rind, (2008) é conhecer as potencialidades de novos produtos turísticos e também melhorar os já existentes através de uma ferramenta semi-automática cujo objetivo é checar potenciais entradas desses produtos.a ferramenta é responsável por fazer rotinas de busca e categorização de texto. O artigo descreve a análise do projeto etblogs, um sub projeto da ANET (Austrian Network for etourism). O protótipo do software foi desenvolvido para dar suporte às organizações turísticas sobre análises de declarações sobre produtos turísticos em comunidades virtuais. Para Miguéns e Corfu (2008) destinos turísticos são caracterizados através de múltiplos atores, dividindo um produto comum e dependente mutuamente de um sistema de rede. Sistemas de redes são caracterizados sob duas perspectivas principais, inter-organização e multi-destinação. Ambientes inter-organizacionais são firmas com ambientes externos e oferecem potenciais insights nas áreas de relações de negócios, organização industrial gerenciamento estratégico em pequenas firmas. Redes multi-destinação são conjuntos de diferentes destinos como um único produto. A análise de rede tem sido proposta na pesquisa do turismo para quantificar a estrutura de multi-destino em função de um único produto, esse conjunto de produto pode ser diferentes cidades visitadas de avião, ou um grupo de diferentes atrações turísticas ou uma única cidade. Um conjunto de cidades em volta de um hub principal visitado através de carro ou sozinho. Destinos turísticos podem ser representados através de um sistema de redes, sua imagem eletrônica pode ser percebida e usada como uma forte rede de relações. A metodologia proposta por Miguéns e Corfu (2008) é análise de rede. Seu

84 74 objetivo é conhecer a estrutura de relações entre atores dados e técnicas aplicadas para produzir indicações relevantes e resultados que permitam estudar as propriedades de rede como um sistema.o trabalho trata de questões sobre como a informação é entregue e direcionada, isso pode ser um importante problema por isso a necessidade de se desenvolver um mecanismo de rede onde seja possível entender cada rede. Muitas ferramentas são utilizadas em análise de redes e tem sua origem na simetria que são laços de centralidade, clusterização e integração, são diferentes sistemas colaborativos. Neste estudo Miguéns e Corfu (2008) estruturam uma e-destination que são representadas usando uma análise de rede. O estudo da estrutura social provê técnicas e indicadores para análise e integração da informação em atrações turísticas. A função dos motores de busca é recuperar informação na maioria das páginas Web e categorizá-las de acordo com sua informação. O estudo de Miguéns e Corfu (2008) explora como a informação sobre atrações turísticas é difícil de ser encontrada e como diferentes informações podem estar disponíveis em diferentes web sites. A teoria de rede é especificamente adaptada para este estudo porque seu foco é em sistemas relacionais onde a relação entre nós prevalece em detrimento das características individuais dos nós. A rede de e-destination é representada como um gráfico bipartido onde os nós podem ser divididos em dois conjuntos distintos. Um conjunto são páginas web e o outro são as atrações turísticas. O projeto proposto por Xiang, Gretzel e Fesenmaier (2009) faz uso de um cenário de planejamento de viagem com a utilização de palavras-chave para solicitar um sistema de busca para planejar uma viagem a um destino específico. A cidade de Chicago foi escolhida por ser um dos maiores destinos turísticos urbanos nos Estados Unidos assim como sua diversidade em recursos culturais e históricos para turistas. Desse modo, na fase 1, um grupo de nove palavras-chave predefinidas (i.e., acomodação, atividades, área, atrações, eventos, informações, lugares, restaurantes e compras ) que muito provavelmente serão usadas por viajantes foram, essas palavras-chave, em combinação com o nome do destino (i.e., Chicago ), foram usadas para fazer buscas no Google. Com base em URLs fornecidos pelos resultados de busca, o conteúdo baseado em textos de sites de turismo da Web foi extraído para representar o domínio do turismo da perspectiva do

85 75 fornecimento. Na fase 2, as mesmas palavras-chave, justamente com o nome de destino (i.e., Chicago ), foram usadas como sementes com as quais se extraem perguntas de usuário a partir de um número de registros de transação de sistema de busca. Duas considerações segundo Xiang, Gretzel e Fesenmaier (2009) guiaram o desenvolvimento dessa abordagem. Primeiro, as palavras-chave pré-definidas devem refletir o domínio do turismo de um modo abrangente. A seleção das palavras-chave foi guiada tanto pelos esquemas de classificação usados pela indústria do turismo como pelas perguntas usadas por viajantes. Especificamente, sites da Web de diversas organizações de marketing de destino localizadas ao longo dos Estados Unidos foram utilizados como fontes para identificar essas palavraschave. Isto é, rótulos textuais para os menus de navegação nesses sites da Web foram extraídos para obter as categorias pelas quais as organizações de marketing de destino organizam suas informações (e.g., acomodação, atração, eventos etc.). Além disso, uma análise dos registros de pergunta disponíveis publicamente de um sistema de busca de base européia (visiteuropeancities.info) foi usado para fornecer uma triangulação com os tipos de palavras-chave que provavelmente serão usadas por viajantes Wöber (2006). O Google foi usado como frame de amostragem para a coleta de dados para a fase1, pois representa uma tecnologia de busca de ponta na Internet. Além disso, é classificado como o mais popular sistema de busca na Internet com um índice declarado de aproximadamente 25 bilhões de páginas da Web e 250 milhões de perguntas por dia; isso representa aproximadamente metade de todas as perguntas ocorridas na Internet (BERTOLUCCI 2007; BROOKS 2004; BURNS 2007). Na fase 2 Xiang, Gretzel & Fesenmaier (2009) utilizou uma amostra de arquivos de registro de transação a partir de três sistemas de busca disponíveis publicamente, nomeadamente Excite, AltaVista e AlltheWeb, para compreender a natureza semântica de perguntas relacionadas a turismo (Jansen e Spink 2005b). Enquanto esses sistemas de busca podem ser diferentes do Google em certos aspectos (i.e., algoritmos de classificação etc.), todos eles possuem uma interface similar à do Google. Isto é, a interação entre um usuário e o sistema é apoiada tanto por uma caixa de texto típica na qual os usuários utilizam digitação em perguntas como os resultados de busca são representados em forma de lista. Assim,

86 76 argumenta-se que esses sistemas de busca podem ser considerados essencialmente equivalentes ao Google, pelo menos a partir de um ponto de vista de interação usuário-sistema. Primeiro, as nove palavras-chave foram utilizadas para formar perguntas com o nome de destino (i.e., Chicago ) e então os resultados de busca foram extraídos do Google, um programa rastreador da Web escrito na linguagem de programação Perl foi usado para recuperar o conteúdo da página da Web, resultando em 450 URLs. O conteúdo textual no corpo das páginas da Web foi então analisado e salvo como o corpus para representar o domínio do lado quem fornece. Na fase 2, perguntas de usuário de três sistemas de busca principais foram usadas para as análises (i.e., três grupos de arquivos de registro de Excite, um de AltaVista, e dois de AlltheWeb, datados de setembro de 1997 a maio de 2002). No entanto, somente as nove palavras-chave pré-definidas em combinação com o nome de destino Chicago foram extraídas, resultando em um total de observações (i.e., perguntas de busca). Em Xiang, Gretzel e Fesenmaier (2009) a análise quantitativa de textos mais uma abordagem analítica principal, seguiu um projeto de três etapas. A Fase 1 enfocou a identificação da semântica que representa no domínio do turismo baseado nos dados textuais extraídos de páginas de turismo da Web. A Fase 2 enfocou a avaliação da semântica que foi usada por usuários de sistema de busca procurando informações de viagem sobre Chicago. Por último, a Fase 3 comparou os resultados das duas fases anteriores com enfoque na avaliação do que é comum e diferente nas palavras contidas nos dois arquivos de dados. Fase 1: Avaliou o domínio do turismo on-line a partir de uma perspectiva do lado do fornecimento,o objetivo desta análise foi compreender a natureza semântica do domínio do turismo a partir da perspectiva do fornecimento.incluiu duas etapas: a etapa 1 tinha o objetivo de identificar as palavras que realmente representam o domínio, ou seja, a ontologia do domínio, e a etapa 2 tinham por objetivo compreender a estrutura semântica desta ontologia, enfocando as palavras centrais que ligam outras palavras no texto. Na etapa 1, um procedimento de préprocessamento foi feito com o objetivo de identificar as palavras de interrupção nos dados incluindo artigos, preposições, conjunções e verbos transitivos que não

87 77 contribuem para o significado do texto (e.g., um, o, e, mas e também etc.). Assim, o arquivo de texto agregado foi importado para o software estatístico SPSS para calcular as freqüências de cada palavra única. Um exame da distribuição das freqüências de todas as palavras únicas indicou que há um enorme número de palavras únicas nos dados e há um número relativamente pequeno de palavras usadas freqüentemente. Um valor parcial das primeiras 787 palavras com as maiores freqüências foi usado para incluir aquelas que melhor representam o domínio do turismo por duas razões: (1) as freqüências cumulativas dessas palavras representam aproximadamente 60% das freqüências totais de todas as palavras únicas, e (2) a freqüência mais baixa entre essas palavras são 45. Considerando que esse texto representa 450 páginas da Web (3x50), palavras que tenham freqüências de menos de 45 somente ocorrem, em média, menos do que uma vez em 10 páginas da Web. Assim, presumiu-se que foram raramente utilizadas em sites de turismo da Web. Essas 787 palavras foram então manualmente examinadas com o objetivo de identificar palavras que são representativas do domínio do turismo. Palavras que eram informativas sobre o próprio documento como arquivo, total, e direito autoral foram identificadas e retiradas da pesquisa. Isso resultou em uma pesquisa final de 364 palavras, que foram então usadas para representar o domínio do turismo on-line de Chicago. Fase 2: Avaliou o domínio do turismo on-line a partir da perspectiva da demanda, o objetivo desta análise foi descrever a natureza semântica de perguntas de usuário relacionadas ao turismo de Chicago por palavras de busca extraídas de seis registros de transação de sistema. A análise seguiu procedimentos similares àqueles utilizados na fase 1, com as seguintes distinções após levar-se em consideração as características únicas das perguntas do usuário do sistema de busca (1) a análise descritiva não apenas identificou as palavras únicas em perguntas de usuário mas também examinou a extensão das perguntas; (2) o préprocessamento dos dados incluiu identificar as palavras de interrupção, apagando perguntas relacionadas a sexo, e fixando manualmente tipos e erros ortográficos de usuário; (3) a associação semântica foi medida usando CATPAC com um tamanho

88 78 de janela de 2 como a maioria das perguntas era bem curta (uma a quatro palavras); (4) cada pergunta foi tratada como um caso individual; e (5) todas as palavras únicas no grupo de dados foram incluídas na análise. Fase 3: Avaliou as perguntas comuns entre o domínio do turismo on-line e perguntas de usuário, objetivo da análise de fase 3 foi comparar as estruturas semânticas identificadas nas primeiras duas fases do estudo. Afirma-se em Xiang, Gretzel & Fesenmaier (2009) se há um alto grau comum entre essas duas estruturas, há uma correspondência entre os lados de fornecimento e demanda, ou seja, as informações fornecidas pela indústria deveriam ser úteis para auxiliar os usuários a encontrarem o que precisam. Comparar as palavras e as relações semânticas pode, portanto, revelar discrepâncias entre o que é oferecido e promovido pela indústria e o que é procurado pelos viajantes. Essa análise consistiu em duas etapas. Primeiro, palavras comuns compartilhadas pelo domínio do turismo on-line e perguntas de usuário foram identificadas. Para Xiang, Gretzel & Fesenmaier (2009) o estudo apresentou os seguintes resultados correspondentes às três fases de análise: (1) a natureza semântica do domínio do turismo do lado do fornecimento com base em textos de sites da Web derivados de resultados de sistema de busca (fase 1), (2) a natureza semântica do domínio do turismo do lado da demanda com base em perguntas de usuário em sistemas de busca (fase 2), e (3) a comparação entre as ontologias de domínio identificadas com base em páginas da Web relacionadas a turismo e perguntas de usuário (fase 3). A linguagem que descreve o domínio do turismo a partir da perspectiva do fornecimento é dominada por um pequeno número de palavras, mas o domínio total é extremamente rico e amplamente idiossincrático. Uma análise adicional das palavras usadas menos freqüentemente mostrou que enquanto havia um grande número de palavras que não pertenciam exclusivamente ao domínio do turismo (e.g., palavras que são parte da linguagem natural tais como adjetivos como familiar e imediato, advérbios como especificamente e comumente e substantivos como transição e ameaça ), muitas dessas palavras eram nomes próprios como Cabrini, Blackwell, Bloomingdale, Zenith e Quiznos e refletiam conceitos específicos de lugares, assim representando a fundação baseada no local

89 79 da experiência do turismo. Com base na distribuição de freqüências, 364 palavras únicas, que representaram aproximadamente 45% de todas as palavras únicas, foram usadas para representar a ontologia do domínio do turismo. Suas freqüências variaram da freqüência mais alta (12.565) para a mais baixa (38) e representaram uma enorme variedade de negócios e serviços na indústria de turismo. A palavra Chicago teve a mais alta freqüência entre todas as palavras pois foi usada para definir a fronteira geográfica do domínio. Algumas das outras palavras populares foram palavras genéricas por se relacionarem ao turismo; estas incluíam lugar, área, informações, mapa, viagem e tour. Muitas outras palavras eram especificamente relacionadas a atrações e atividades, incluindo atração, eventos, centro e mundo, enquanto outras se relacionavam a local tais como oeste e centro. Enfim, algumas palavras sugeriam um interesse em promoções tais como melhor, negócio e serviço. A medida de centralidade foi calculada para identificar as palavras que eram proeminentes na rede semântica e desempenhavam um papel central ligando diferentes grupos de palavras ou seja, palavras que eram comumente compartilhadas entre diferentes páginas da Web. O resultado foi as 25 palavras principais na rede semântica que possuem os mais altos valores de centralidade de medialidade. Como se pode ver, um número das palavras exibiu um valor de centralidade relativamente alto (média = 164,3 com um desvio padrão de 1.238), e a centralização de rede total foi alta (29,2%). Isso indica que certos conceitos foram destacados na representação de serviços e produtos de turismo pela indústria, em foram comumente compartilhados por diferentes sites da Web e seções de sites da Web. Interessantemente, parece que essas palavras podem ser colocadas em camadas com base em seus valores de centralidade. Por exemplo, enquanto a palavra loja possui a mais alta centralidade de medialidade, palavras como música, experiência, famoso, blues, teatro, europeu, distância e boutique possuem valores de centralidade muito mais baixos do que loja mas muito mais altos do que o resto das palavras. A natureza semântica do domínio do turismo on-line a partir de uma perspectiva de demanda foi constatada que a maioria das perguntas de usuário era curta, variando de 1 a 4 palavras, e eram muito gerais (e.g., hotel de Chicago ) ou muito específicas (e.g., Chicago Wyndham Hotel ). A distribuição de freqüência na

90 80 (figura 3) mostra a distribuição de freqüências de palavras únicas em perguntas de usuário, indicando que as 20 principais palavras com as mais altas freqüências representaram mais da metade (52%) das freqüências totais de todas as palavras e que as 100 palavras principais representaram 70% da freqüência total. Como pode ser visto, aproximadamente dois terços de todas as palavras únicas tinham uma freqüência mais baixa ou igual a 2, e 45% de todas as palavras únicas foram usadas uma vez por usuários de sistema de busca. No total, a distribuição pendia altamente contra o pequeno grupo de palavras de alta freqüência, refletindo interesses gerais dos viajantes em informações relacionadas a turismo (e.g., hotel, direção, mapa, centro, reserva, spa, desconto, acomodação, vista para o lago etc.). A medida de centralidade foi calculada para identificar as palavras que são proeminentes na rede semântica. As palavras como Chicago, área, terra de Chicago, subúrbio, arte e centro possuem os valores de centralidade de medialidade mais altos porque foram usadas freqüentemente em combinação com outras palavras. Por exemplo, a palavra centro foi usada freqüentemente com palavras como Chicago, hotel e loja para formar perguntas mais específicas. A centralidade de rede total foi 2,2%, a qual indica que a rede possui um grau limitado de centralidade, por sua vez indicando que a rede era de algum modo conectado e dominado pelas palavras com valores altos de centralidade. Em Xiang, Gretzel e Fesenmaier (2009) é feita uma comparação de ontologias de fornecimento e demanda o resultado representa aparentemente facetas de negócios na indústria, um número de adjetivos (destacados em negrito) incluindo bom, divertido, único, livre, oficial, amigável, perfeito, romântico, velho, barato e especial também foram comumente usados tanto por usuários do sistema como pela indústria. Parece que enquanto essas palavras foram usadas pela indústria com a intenção de promover seus produtos e persuadir visitantes potenciais, usuários de sistema de busca também haviam usado essas palavras para localizar informações específicas sobre os produtos e serviços que queriam. Os resultados do estudo indicaram o que domínio do turismo on-line representado pelos sites da Web e perguntas de sistema de busca de viajantes inclui uma quantidade incrivelmente rica de informações sobre a indústria de turismo

91 81 dentro de um destino. Enquanto a ontologia de domínio identificada é relativamente pequena porque enfocou um destino, é claro que o domínio do turismo inteiro é rico e idiossincrático com numerosas especificidades de destino. Ou seja, enquanto há um número relativamente pequeno de palavras que dominam o domínio do turismo (e.g., viagem, informações, hotel e atrações), há também uma cauda longa com um número enorme de palavras que reflete uma ampla variedade de experiências únicas que são oferecidas no destino. As descobertas também indicam que as informações de turismo on-line exibem certas propriedades estruturais pois palavras representando o domínio são semanticamente associadas. Esse espaço semântico não apenas contém as várias facetas dominantes da indústria de turismo mas também conota significados incluídos nas relações semânticas. Além disso, parece que a ontologia do turismo contém espaços centrais e periféricos, com certas palavras sendo semanticamente mais perto de cada um do que outros. Por exemplo, descobriu-se que um número de palavras (e.g., loja, música, experiência, famoso, blues, teatro, europeu, distância, boutique, premium e contemporâneo ) era altamente central para a estrutura semântica da ontologia do turismo de Chicago, sugerindo sua proeminência no espaço semântico do domínio e seus papéis de conectar agrupamentos de palavras. Análises de perguntas de usuário relacionadas a turismo a partir de arquivos de transação de sistema de busca mostraram que a maioria das perguntas é curta e expressões de necessidades de informações de viajantes com a intenção de efetiva e eficientemente recuperar informações relevantes a partir de sistemas de busca. Em geral, há relativamente poucas palavras nas perguntas de usuário que representam a maioria das coisas relacionadas a turismo (e.g., hotel de Chicago ). Contudo, há também uma longa cauda de palavras que representa as necessidades de informações heterogêneas dos usuários e seus próprios mapas mentais da experiência de turismo. Esses resultados parecem ser compatíveis com estudos prévios de busca de informações as quais a maior parte das informações buscadas ao se planejar uma viagem é funcional em vez de hedônica. Ou seja, os viajantes muito mais provavelmente irão enfocar atributos de produtos tais como local, preço e disponibilidade em vez de outros mais experimentais baseados em aspectos sensoriais e emocionais do produto (e.g., cheiro, atmosfera, sensação etc.). Além disso, perguntas de usuário mostram uma forte estrutura semântica. Ou seja, os

92 82 tipos de informações que as pessoas buscam parecem refletir um espectro de necessidades de informação variando de muito gerais para altamente específicas. Esta descoberta é compatível com Pan e Fesenmaier (2006), que indicaram que a maioria dos usuários busca informações muito gerais (e.g., hotel de Chicago ), enquanto um número relativamente pequeno deles busca diretamente informações específicas incluindo o nome do negócio (e.g., Chicago Wyndham Hotel ). A comparação entre as ontologias de perguntas de usuário e as informações derivadas de sites de turismo da Web indica que há um pequeno número de palavras (n 208) comum às duas ontologias. Enquanto a maioria das palavras na ontologia de fornecimento foi representada em perguntas de usuário, essas palavras comuns representam apenas uma pequena porção de todas as palavras em perguntas de usuário. As diferenças nas palavras com valores de alta centralidade nas duas estruturas semânticas identificaram as diferentes orientações na representação das necessidades de informações dos usuários e de turismo. Ou seja, os resultados sugerem que enquanto a indústria tem o objetivo de promover negócios (tais como loja, boutique ) usando palavras persuasivas ( famoso, premium ), os viajantes enfocam mais informações de negócios ou fatos específicos. Em geral, as comparações entre as ontologias indicam que embora o lado de fornecimento de fato reflita certos aspectos das necessidades de informação dos usuários, há um número substancial de termos de pergunta que não são capturados por essa ontologia. Os resultados deste estudo oferecem importantes implicações para desenvolver tecnologias e estratégias de busca para marketing on-line em viagem e turismo. Essas tecnologias podem ser vistas como auxílios de decisão no planejamento de viagens, fornecendo os meios pelos quais viajantes on-line podem simplificar o processo de tomada de decisão identificando os negócios de destino e turismo que satisfazem as necessidades ou desejos específicos do viajante (FESENMAIER; WÖBER; WERTHNER 2006). Para um domínio culturalmente rico como turismo, a chave ao se desenvolver tais tecnologias consiste em uma melhor compreensão da natureza do domínio e, conseqüentemente, maneiras significativas de organizar e representar o domínio. Especificamente, o conhecimento obtido por meio deste estudo sugere que novas abordagens de projeto devem ser identificadas com o objetivo de transpor a lacuna

93 83 entre as necessidades de informação de viajantes e o rico domínio do turismo online. Conforme mostrado na análise empírica deste estudo, a maioria dos usuários do sistema de busca utiliza perguntas muito curtas e gerais para localizar informações mais específicas e relevantes. Assim, um sistema de busca de turismo deveria estabelecer uma dinâmica, mais flexível, modalidade de interação para permitir que o viajante on-line articule suas necessidades. Particularmente, o feedback do sistema não só necessita incluir resultados de busca que sejam altamente relevantes para uma pergunta específica mas também deveria fornecer sugestões para inspirar o viajante on-line expandindo seu conjunto de considerações. Exemplos típicos de tais técnicas incluem os mecanismos de recomendação em funções de pesquisa do Amazon baseadas em filtragem colaborativa e anúncios contextuais do Google baseados em explorar dúvidas de usuário e histórico de busca (Gretzel e Wöber 2004). Devido à estrutura hierárquica dentro da ontologia do domínio do lado do fornecimento, os vocabulários no domínio podem assim ser usados na forma de associação de palavra-chave, por exemplo, para identificar necessidades ou preferências de informações de viajantes ao fornecer transições do geral (e.g., hotel de Chicago ) ao específico (e.g., hotel no centro de Chicago com vista para o lago ). Além disso, deve ser dada consideração à interface que incorpora fatores de projeto úteis como a visualização da estrutura semântica do domínio, lógica narrativa e metáforas para facilitar e aprimorar a interação usuáriosistema para apoiar a busca de viagem (GRETZEL; FESENMAIER 2002; XIANG; FESENMAIER 2006). Além disso, o domínio do turismo on-line é compreendido como a transformação simbólica de produtos e experiências de turismo no ambiente on-line. Isto é, os significados do domínio representam as comunicações com finalidades entre a indústria e seus consumidores prospectivos para engendrar uma imagem positiva do destino. Em particular, a ontologia do domínio do lado do fornecimento não apenas engloba vocabulários que representam várias facetas industriais mas também contém as palavras que a indústria utiliza para descrever seus produtos e serviços. Contudo, conforme mostrado neste estudo, esta linguagem não é necessariamente usada por viajantes buscando informações relacionadas a viagens.

94 84 Assim, o desenvolvimento de tecnologias de busca inovadoras deve enfocar o estabelecimento de funções que compreendam os significados conotados nesta representação e construção de mecanismos de mapeamento entre as perspectivas do lado do fornecimento e demanda. Por exemplo, um sistema inteligente deve ser capaz de diferenciar uma pergunta de usuário que solicita um quarto de hotel impecável daquela que solicita um quarto razoavelmente limpo (Markoff 2006). Portanto, compreender a linguagem usada por viajantes assim como a usada pela indústria e construir uma conexão apropriada entre essas ontologias de domínio é necessário para mapear com sucesso as perguntas de usuário com conteúdo de site da Web industrial. Enquanto sistemas de busca podem desempenhar um importante papel conectando as ontologias de fornecimento e demanda do domínio do turismo, os vendedores de turismo podem contribuir para o sucesso das perguntas de viajantes, compreendendo a linguagem utilizada pelos viajantes e ajustando seu conteúdo de sites da Web de acordo. Ou seja, o melhor exemplo de comunicação persuasiva ocorre naqueles sites da Web que abordam as necessidades de informação específicas do viajante usando a linguagem do viajante. Argumenta-se que esta linguagem fornece a fundação com a qual um viajante prospectivo interpreta os produtos informacionais oferecidos pela indústria. Para atingir este objetivo, mais pesquisa e desenvolvimento são necessários em numerosas áreas. Gretzel (2006), por exemplo, sugeriu que os vendedores de turismo podem se voltar a muitos conteúdos gerados por consumidores facilmente disponíveis, por exemplo, blogs e resenhas, para aprender sobre a linguagem que os viajantes usam para descrever produtos de viagem e suas experiências. Além disso, sites de turismo da Web podem ser projetados para incorporar ferramentas (e.g., resenhas, rotulagem e escavação) que permita aos viajantes interagirem diretamente com elas para que mais conhecimento sobre o modo como os viajantes comunicam suas percepções e experiência possa ser coletado e aprendido. Parece que esses canais de comunicação guiado por consumidores fornecem novas e promissoras vias para vendedores de turismo compreender e portanto melhor interagirem com visitantes prospectivos. Este estudo comprovou que a linguagem do turismo como refletida tanto pela indústria como pelo viajante fornece uma fundação essencial necessária para guiar o desenvolvimento de tecnologias necessárias para apoiar o planejamento de

95 85 viagens na Internet. Para o nosso estudo esses trabalhos contribuíram para constatar que a metodologia emprega foi eficiente e poderá ser utilizada na organização de redes semânticas e de uma análise lingüística como foi feito demonstrou ser é de suma importância para a compreensão do domínio. O estudo analisou o domínio sob uma perspectiva do fornecedor e da demanda este foco dado ao trabalho pode identificar a percepção do consumidor sobre esta linguagem. Até o presente momento foi mostrado que a idéia de uma rede conceitual tem importantes conseqüências para uma teoria da estrutura da linguagem. 5. FERRAMENTAS DE ANÁLISE LINGUISTICA AUTOMÁTICA O método adotado neste trabalho para extrair redes léxico semânticas ou seja, o reconhecimento automático do significado das palavras associados a destinos turísticos na América Latina seguiu quatro objetivos principais: 1. Identificar automaticamente as palavras típicas de cada destino nos textos que tratam sobre a América Latina; 2. Identificar automaticamente quais destinos está associado a qual outro no espaço Latino Americano; 3. Identificar automaticamente através das categorias semânticas a distribuição do campo lexical associado a cada país; Os procedimentos metodológicos utilizados na coleta e análise dos dados foram capturados no Jornal Folha de São Paulo- Folha Online/ Folha.com. Durante a pesquisa empírica, realizada entre 09/01/2001 até o dia 26/08/2010 foram compilados e armazenados os corpora. Segundo Hudson (2010) a língua é um sistema de elementos interconectados por isso a idéia de língua como uma rede conceitual ou seja, formalmente tudo pode ser descrito em termos de nós e suas relações. Palavras portanto, relacionam- se a conceitos por isso nós buscamos identificar quais conceitos está relacionados a esses países à expressão desses conceitos vem por meio dessas palavras. As palavras que o software pode listar do corpus de cada país foram obtidas com a

96 86 ajuda do programa computacional WordSmith Tool 5.0 Scott (2007) elas foram colocadas numa lista vertical e buscamos saber quais eram as mais freqüentes se elas correspondiam a conceitos que eram representativos dos destinos turísticos desse país. O software WS faz o levantamento dos dados quantitativos, tais como listas de palavras, listas de palavras-chaves, linha de concordância e colocados. Para inserir automaticamente no corpus códigos que indicam a classe gramatical de cada palavra utilizamos o sistema eletrônico VISL (Visual Interactive Syntax Learning) da Universidade do Sul da Dinamarca, em Odense. O objetivo do VISL é a etiquetagem gramatical de corpora, o partidor (parser) permite buscas complexas juntando ao mesmo tempo palavras e lemas, classe de palavras e função sintática. Para representar as redes utilizamos a ferramenta UCINET desenvolvido por um grupo de analistas de rede da Universidade da Califórnia (UCI), a versão atual é a do UCINET e possuem funcionalidades adequadas e boa usabilidade, atributos requeridos para proceder às análises necessárias.os diagramas das redes são obtidos com o programa NETDRAW que é integrado ao UCINET. 5.1 Organização do Corpus Os textos coletados para os corpora de análise no campo do turismo foram totalmente extraídos da Internet, optamos por trabalhar com o Jornal Folha de São Paulo- Folha Online/Folha.com, a escolha se deu à facilidade de encontrar textos do campo na rede e o fato de termos anteriormente em 2004 vivido uma experiência de pesquisa em loco no Banco de Dados do Jornal Folha de São Paulo e Arquivo do Estado. O Jornal Folha de São Paulo foi fundado em A Folha está organizada em cadernos temáticos diários e suplementos têm circulação nacional e conteúdo online que é produzido pelas redações da Folha Online, Agência Folha, Folha News, Agências internacionais e reportagem dos jornais Folha de São Paulo e Agora.

97 87 A Folha.com é um banco de dados, um arquivo com todas as matérias sobre os cadernos do Jornal Folha de São Paulo, a busca por informação não é obtida por uma seqüência já a Folha online é organizada por data e hora. Neste contexto virtual existe a possibilidade de acesso Folha Digital que supostamente tem em seu conteúdo tal e qual é a folha impressa. A coleta se deu da seguinte forma: A escolha de um corpus que abarca todos os textos extraídos do jornal folha de São Paulo- Folha Online foi feita da seguinte forma: No campo de busca da Folha Online colocamos America do Sul com aspas conforme Figura 3, America Latina com aspas, Argentina, Belize e todos os outros países que compõem a América Latina Depois de feita a busca e extraídos os links conforme Figura 4 selecionamos texto por texto e salvamos em um arquivo txt o que significa que contêm somente caracteres do teclado, sem códigos de formatação, uma exigência do programa WS para que os textos sejam processados corretamente. Dos textos selecionados salvamos em planilha do Excel o título, a data e a que país o texto se refere. Uma vez coletados, formatados e nomeados, o próximo passo foi à organização dos arquivos em uma estrutura coerente e de fácil manuseio. Segundo a literatura, não há regras para esse tipo de procedimento. Alguns corpora, por exemplo podem ser organizados em pastas hierarquizadas, outros com textos salvos em arquivos separados conforme Figura 5, outros ainda com um texto em cada pasta. Entretanto, Berder-Sardinha (2004 p.72) salienta importantes considerações para qualquer tipo de organização de corpus: 1ª - Os textos devem estar em uma pasta principal em que só existam textos do corpus. 2ª - Seja criado uma subpasta que indique a versão atual do corpus, por exemplo, 00. 3ª - As subpastas criadas devem refletir seu conteúdo, isto é, que tenham nomes que indiquem o tipo de texto, o assunto, etc.

98 88 6. Figura 3 Índice Geral de notícias No campo de busca colocamos o nome dos países com aspas, seção Folha.com /Turismo até os dias atuais que foram datados no dia 26/08/ Figura 4 Links das notícias Para coletar os corpora, criou-se um diretório com as pastas contendo todos os textos salvos em arquivo txt. Cada pasta foi salva com as iniciais dos países no computador que exibia pastas na mesma estrutura da árvore de campo. O mesmo foi subdividido entre todos os países da América Latina salvos nas suas respectivas pastas. Feito esses procedimentos listamos todos os títulos coletados durante o período de 09/01/2001 até o dia 26/08/2010 como mostra a Tabela 1. Relacionados por destinos,data e título.

99 89 Figura 5 Diretório da pesquisa Tabela 1: Títulos coletados durante o período 09/01/2001 até 26/08/2010 Algumas considerações importantes foram tomadas para a aquisição desta pesquisa. Ao mapear o léxico nós excluímos o Brasil.

100 90 Entendemos que o trabalho esta sendo feito no Brasil por pesquisadores e jornais brasileiros o objetivo portanto, é buscar parâmetros para avaliar a percepção social do brasileiro em relação às práticas de turismo dos seus vizinhos a América Latina tomando como referência o trabalho realizado sobre imaginário latino americano nos cadernos de turismo em (OKUYAMA, 2004). Outro motivo que nos fez deixar de lado a pesquisa nos textos sobre o Brasil foi entender que o turismo brasileiro por si dado a extensão do país e o volume das atividades turísticas e a complexidade turística dos atrativos brasileiros envolvidos requereria outro trabalho. Selecionamos como sendo o corpus de referência todo o conjunto de textos de todos os países da América Latina com exceção do conjunto de texto de um determinado país. Já o corpus de estudo comparado ao corpus de referência tratase do conjunto de textos de apenas um país. Este método tem efeito comparativo para a extração das palavras-chave no software WS. Um conjunto de textos quando analisados e comparados, por exemplo, textos sobre a Argentina em comparação com todos os outros conjuntos de países, o conjunto de textos sobre a Argentina é retirado do corpus de referência. Portanto o corpus de estudo para efeito comparativo é um conjunto de país e o corpus de referência são todos os outros países. Selecionamos um conjunto de textos significativos para ser o corpus deste trabalho, na verdade no primeiro levantamento tínhamos 29 países incluindo o Caribe que não é um país é uma região, porém o volume de textos foi pouco significativo porque continham pouquíssimos textos como por exemplo, Belize com apenas dois textos. Por isso ficamos com 11 destinos para a análise e etiquetagem do léxico. Para efeitos de simplificação não usaremos destino/país-região passaremos a utilizar destinos. Desta forma temos como corpus de referência o conjunto total de textos incluindo os textos sobre América Latina e América do Sul.

101 Cálculo da Frequência de Palavras Segundo Berber-Sardinha (2004 p.165) uma das informações que se pode extrair mais prontamente são as freqüências das palavras, esta informação é bastante válida porque permite que se determinem quais palavras são freqüentes e quais são bastante raras, tais informações não seriam obtidas sem a ajuda de um listador de palavras (WordSmith Tools), já que o ser humano não esta preparado cognitivamente para armazenar esse tipo de informação. As listas de freqüências de palavras são instrumentos importantes, muitas vezes são publicados integralmente em um volume especializado, parcialmente em conjunto com outros trabalhos, eletronicamente na Internet, com comentários ou apenas com o conteúdo lexical numérico. Existem listas de freqüência disponíveis em diversas línguas nos Estados Unidos, Edward Thorndike (1921) foi o pioneiro sua lista se baseava em um corpus de 4,5 milhões de palavras, fornecia informação para a preparação de matérias de ensino de leitura. Em português Duncan (1972) foi pioneiro com Frequency dictionary of Portuguese words como parte de sua tese de doutorado em Stanford. No Brasil, Maria Tereza Camargo Bidermann preparou listas de freqüências a partir do Corpus do Português Brasileiro Contemporâneo. Francisco da Silva Borba, é outro pesquisador brasileiro trabalha com a construção de corpora para a preparação de dicionário de português brasileiro informado pelas freqüências do vocabulário (BERBER-SARDINHA 2004: 162) O fundamento da linguagem como sendo um sistema probabilístico logo é notável a freqüência de uso das palavras, é compartilhada por John Sinclair, Michael Holliday e Geoffrey Sampson. Berber-Sardinha (2004:162) assume com base em Guiraud (1954) que as palavras não se dispõem em um plano uniforme no léxico isso quer dizer que: algumas palavras têm mais que outras oportunidades de ser empregadas com freqüência. A freqüência de uso (alta, baixa, intermediária) são atributos inseparáveis da palavra, pois revela sua ocorrência observada de modo que Guiraud (1954) argumentou dizendo que:

102 92 Certamente, todo o signo é uma criação individual... na origem, mas é também e sobretudo uma criação coletiva: a palavra, criada pelo individuo, não assume seu valor senão na medida em que é aceita, retomada, repetida, por isso ela se define, afinal, pela soma de seus empregos (Berder-Sardinha 2004:163 apud Guiraud 1954:306) Portanto a necessidade da observação empírica da freqüência em um contexto definido de textos para obter a probabilidade de ocorrência de um traço ou estrutura, o nosso objetivo é utilizar a ferramenta para calcular a freqüência lexical em cada país de destino, no caso todos os países que compõem a América Latina porém, não sabemos se será possível, para validar uma pesquisa que componha todo os países faremos um amostra com um país à Argentina. A escolha desta amostra não foi aleatória, escolhemos a Argentina por observar prontamente a maior quantidade de textos, logo concluímos que a sua escolha seria relevante O Pacote WordSmith Tools Para proceder à análise do corpus, tendo como base os princípios da Lingüística de Corpus é necessário fazer uso de programas de exploração automática de informações.para isso utilizamos o WordSmith Tool 5 versão 5.0.Este programa computacional auxilia na análise e na operacionalização da descrição lingüística do corpus,wordsmith Tools é de autoria de Mike Scott e foi publicado pela Oxford University Press, que usa o programa no desenvolvimento de material lexicográfico. O software já esta na quinta versão e possibilita a exploração do próprio corpus além de poder ser explorado em vários idiomas. O programa pode ser adquirido pela Internet, usuário deve baixar a versão demo e se tiver interesse, pagar a licença para receber um código que a transforma em completa (BERBER- SARDINHA, 2004:82). 5 É possível fazer download da versão demo porém, o acesso é restrito com uma visão parcial dos resultados. A versão oficial pode ser adquirida no mesmo site por aproximadamente R$ 150,00 Disponível em <

103 93 O programa disponibiliza uma série de recursos para a análise de vários aspectos da linguagem, como a composição lexical, a temática de texto selecionado e a organização retórica e composicional de gêneros discursivos. Citado por alguns importantes autores em trabalhos baseados em Lingüística de Corpus por exemplo, Berber-Sardinha (2004) entre outros. Visão Geral do programa: O programa gera lista de palavras (WordList), lista de palavras-chave (KeyWords) e linhas de concordância (Concord) O programa é composto segundo Berber-Sardinha (2004: 82) de (a) ferramentas,(b) utilitários,(c) instrumentos e (d) funções. Há três ferramentas e quatro utilitários: Os instrumentos de análise disponíveis nas três ferramentas são os seguintes: activated) Lista de palavras individuais (wordlist). Lista de multipalavras (wordist,clusters,activated). Lista de palavras de consistência individuais (detailed consistency). Lista de multipalavras de consistência (detailed consistency,clusters, Lista de dimensões e densidade lexical (statistics) Concord: Concordância(concordance) Lista de colocados (collocates) Lista de agrupamentos lexicais (clusters) Lista de padrões de colocados (patterns) Gráfico de distribuição da palavra de busca (plot) KeyWords: Lista de palavras-chave (Keywords) Banco de dados de listas de palavras-chave (database) Lista de palavras-chave-chave (key Keywords) Lista de palavras-chave associadas (associates). Lista de agrupamentos textuais (clumps) Gráfico de distribuição de palavra-chave (Keyword plot) Listagem de elos entre palavra-chave (keyword plot )

104 94 Funções principais distribuídas nas três ferramentas: Lematização: agrupamento de duas ou mais formas diferentes em um mesmo item.por exemplo, as formas correm e correram pode ser agrupado sob o lema (lexema) correr. Classificação:ordenação de listas e concordâncias por ordem alfabética frequencial ou por posição (na lista de colocados) Delimitação: escolha de quais partes do corpus será lida pelo programa. É útil porque permite ignorar cabeçalhos de textos etiquetados Ferramentas do WordSmith Tool A ferramenta WordList possui três janelas nas quais propicia a criação de listas de palavras, a primeira contém uma lista de palavras ordenadas por ordem alfabética, outra com uma lista classificada pela freqüência das palavras, e uma terceira janela com estatística simples a respeito dos dados (BERBER-SARDINHA 2004:91). A lista de palavras ordenada alfabeticamente possui os seguintes elementos: Coluna Word: os itens (em geral palavras) contidos no(s) texto(s). Coluna Freq.: quantas vezes cada item ocorreu Coluna%: a Percentagem do total de itens do texto a que corresponde cada item Coluna Lemmas: Outros itens cujas freqüências foram adicionados ao item corrente. Lemas (lemmas ou lemmata, em inglês e latim) são itens lexicais que incorporam formas derivadas. Por exemplo, o lema correr pode compreender as formas corro, corre, correndo,correr, corrido. É análogo ao conceito de lexema. Essa função oferece uma seção na qual se faz a análise estatística que mostra, entre outros dados, o número total de palavras do corpus (tokens), formas distintas de palavras (types), a proporção entre o número total de palavras e as ocorrências de cada uma (type/token ratio), o número de sentenças (sentences) e o número de parágrafos (paragraphs) do corpus.

105 95 A lista de freqüência conforme Tabela 2 mostra à freqüência as palavras do corpus do país Argentina, é utilizada para o levantamento de listas cujo objetivo é extrair palavras-chave, quando comparada a uma lista de palavras de um corpus de referência. Tabela 2: Tela de função WordList freqüência do país Argentina Uma grande contribuição da Lingüística de Corpus foi à identificação automática das palavras-chave. O termo "palavra chave", embora seja de uso comum, não é definido em Lingüística. O WS é capaz de identificar palavras-chave em uma base mecânica, comparando os padrões de freqüência. Uma palavra é dita ser "chave" se: a) o que ocorre no texto, pelo menos, quantas vezes o usuário tenha especificado como um mínimo dado por uma freqüência estabelecida no comando do WS. b) a sua freqüência no texto quando comparada com sua freqüência num corpus de referência é tal que a probabilidade estatística, calculado por um procedimento adequado é menor ou igual a um valor p especificado pelo usuário

106 96 A ferramenta KeyWords permite a seleção de itens de uma lista de palavras(ou mais) por meio da comparação de suas freqüências com uma lista de referências. O resultado do contraste é uma lista de palavras-chave. O que se entende por palavra-chave (Keywords) não são palavras que muitas vezes pensamos ser as palavras importantes porque o programa de chaveamento (keyness) é definido pela freqüência. Assim uma palavra-chave será se sua freqüência seja significativamente elevado ou muito baixo em comparação com um corpus de referência. As palavras-chave emergem da comparação do corpus de estudo com o corpus de referência conforme Tabela 3, extrai-se o que é proporcionalmente mais recorrente no corpus de estudo. O programa lista as palavras por ordem de chavicidade (keyness) ou freqüência em que as palavras-chaves aparecem no corpus. A ferramenta possibilita a extração de palavra-chave-chave, ou seja conta a quantidade de vezes que algumas palavras foram chave em várias listas. Argentina Tabela 3: Tela de função KeyWords palavras-chave do país

107 97 Segundo Baayen (1998 p. 92) palavras-chave revelam o que é característico de um determinado texto ou corpus e ainda as define como palavras que são usadas intensamente em textos muito específicos e por isso tornam-se palavras típicas desses textos. Extraímos um léxico de palavras do corpus que selecionamos para a análise lexical, os 11 destinos/países-região. As palavras chaves são calculadas ao se comparar a freqüência de cada palavra na lista de palavras do texto (corpus de estudo) a freqüência da mesma palavra no corpus da lista de referência. Todas as palavras que aparecem na lista (corpus de estudo) são consideradas a menos que seja feito um stop list Uma stop list são palavras que se deseja excluir da análise. Esse procedimento é útil para filtrar as palavras cujas freqüências são muito altas no corpus como por exemplo, [...as palavras gramaticais 6. Cada pesquisador pode criar a sua própria stop list, levando em consideração o objetivo da pesquisa, para o nosso trabalho focamos na análise das palavras de conteúdo (ou lexicais), em detrimento das palavras gramaticais. Contudo criamos uma stop list com artigos, pronomes pessoais, pronomes possessivos, pronomes demonstrativos, pronomes indefinidos, pronomes relativos pronomes interrogativos,preposições, combinações e contrações com preposições...] 7. O programa calcula a chave, chavicidade keyness de uma palavra levando em consideração os seguintes elementos 8 : 1. A freqüência da palavra no corpus de estudo (small word list); 2. O número total de palavras (tokens) da lista do corpus de estudo; 3. A freqüência da palavra no corpus de referência; 4. O número total de palavras do corpus de referência; Uma palavra será considerada chave se for significativamente mais freqüente ou menos freqüente em comparação ao corpus de referência. A palavra-chave significativamente mais freqüente no corpus de estudo são palavras-chaves 6 Ver Help do WordSmith para detalhes do uso de stop list 7 Ver relação de palavras utilizadas na stop list em anexo 8 Consultar o Help do WordSmith para esclarecimentos sobre Keyness

108 98 positivas e estão demarcadas na cor preta e as menos freqüentes são chamadas de palavras-chave negativas e estão em vermelho. Optou-se pelo conjunto de todos os textos cujos, destinos são para a América Latina para servir de corpus de referência no levantamento das palavras-chave. Esta escolha buscou evidenciar o que é típico de cada país. O conteúdo das listas de palavras-chave depende dos ajustes feitos pelo pesquisador. Levando em consideração o objetivo desta pesquisa que primeiramente é levantar um léxico que seja típico de destinos e não somente isso buscou caracterizar quais destinos está associados a qual outros no espaço latino americano, estabelecemos os seguintes critérios para o levantamento de palavras chaves do conjunto de textos sobre todos os países da América Latina. Levando em consideração os objetivos desta pesquisa o levantamento das palavras-chaves dos destinos latino americanos do Jornal Folha de São Paulo- Folha.com Optou pelo teste estatístico qui-quadrado (chi square). O WS disponibiliza dois testes estatísticos: o log likelihood e chi-square. O log likelihood deve ser escolhido quando o corpus é de grandes proporções Scott (2007). Já o qui-quadrado é mais indicado para a análise de uma amostra do corpus (VASILÉVSKI 2007p. 89). O valor de p: 0,01. A probabilidade de um evento ocorrer varia entre 0 e 1, ou seja, 0 significa que não há chance de algo ocorrer e 1 significa a certeza que algo ocorra. Entre um número e outro existem diferentes graus de probabilidade do evento ocorrer. O valor p é o utilizado no padrão do qui-quadrado e outros testes estatísticos. Esse valor varia de 0 a 1. Um valor de 0,01 sugere um risco de 1% de estar errado em reivindicar um relacionamento, 0,05 daria uma5% de risco de erro. Nas ciências sociais, um risco de 5% é normalmente considerado aceitável.no caso das análises palavra-chave, onde a noção de risco é menos importante do que a seletividade,você pode freqüentemente desejar definir um limite de valor relativamente baixo, tais como p (um em um milhão) de modo a obter menos palavras-chave (1E-6 em notação científica). Se o procedimento do qui-quadrado é usado, o valor de p calculado somente será mostrado se todas as medidas adequadas requisitos estatísticos (todos os

109 99 valores esperados> = 5). Para esta pesquisa o valor de p estipulado foi (um em um milhão) com uma freqüência mínima de 3 para uma palavra ser considerada chave. Uma Keyness é definida através de dois testes estatísticos o primeiro é quiquadrado 9 que é um teste de hipótese tem por objetivo encontrar um valor de dispersão para duas variáveis nominais e avalia a associação existente entre variáveis qualitativas. O princípio básico deste método é comparar proporções ou seja, as possíveis divergências entre as freqüências observadas e esperadas para certo evento. O teste é utilizado, portanto para verificar se a freqüência com que um determinado acontecimento observado em uma amostra se desvia significativamente ou não da freqüência com que ele é esperado. Serve também para comparar a distribuição de diversos acontecimentos em diferentes amostras a fim de avaliar se as proporções observadas destes eventos mostram ou não diferenças significativa ou se as amostras diferem significativamente quanto às proporções desses acontecimentos (BERBER-SARDINHA, 1999). Segundo explica Berber-Sardinha (2004 p.100) o corpus de referência não deve conter o corpus de estudo, pelo menos não por completo segundo o autor há duas razões para isso a primeira refere-se aos valores absolutos e a segunda trata das freqüências relativas. Sobre os valores absolutos Berber-Sardinha (2004 p.100) diz:...devido à soma das freqüências, as mais salientes no corpus de estudo tendem a obscurecer, e portanto, a deixar de indicar palavras-chaves. Por exemplo, se no corpus de estudo a palavra casa tem freqüência 10, e no corpus de referencia 1, a diferença será grande(10) e possivelmente significativa, ou seja, a palavra casa tem chances de ser chave. Mas se o corpus de estudo for adicionado ao de referência, as freqüências passam a ser 10 no corpus de estudo e 11 no de referência, ou seja, uma diferença de apenas 1, o que diminui as chances de a palavra ser chave. Sobre as freqüências relativas Berber-Sardinha (2004 p.100) diz: 9 acesso em 13/12/2010

110 a soma pouco altera a diferença entre as porcentagens, e é, portanto, desnecessário unir os corpora, se o corpus de estudo possuir 100 itens, a freqüência 10 de casa seria 10% (10/100), e se o corpus de referência tiver 500 itens, a freqüência 1 seria equivalente a 0,2(1/500). Juntando os corpora, a freqüência no corpus de referência passa ser 11, ou 1,8% (11/600), ou seja, a palavra casa ainda continua com propensão a ser chave. Com palavras menos discrepantes, a diferença também pouco altera a propensão a chavicidade. A execução dos comandos traz a tela uma lista de palavras-chave que constam as seguintes informações conforme Quadro 2: Quadro 2: Informações sobre a tela de palavras-chave Coluna Word Coluna Freq: Coluna % Coluna Freq RC estudo estudo Os itens do(s) texto(s) A freqüência do item no corpus de estudo A porcentagem do item em relação ao total do corpus de A freqüência do item em relação ao total do corpus de Coluna % RC Keyness A porcentagem do item em relação ao total do corpus de referência O resultado da estatística de comparação(log-likelihood ou qui-quadrado) P: O valor da significância estatística atingido pelo resultado da estatística Com a ferramenta Keywords do WS foram criadas, então, as listagens de palavras-chave referente lexical. aos 11 destino/países-região utilizados para a análise Essa ferramenta possibilita a visualização da palavra analisada ou seja, a palavra fica centralizada no contexto em que esta inserida, explica (Berber Sardinha; 2004 p.187): A concordância é uma listagem das ocorrências de um item específico, dispostas de tal modo que a palavra de busca (aquela que se tem interesse em investigar) aparece centralizada na página (ou tela do computador). A palavra de busca é acompanhada do seu contexto original, isto é, das palavras que ocorreram junto com ela no corpus.

111 101 A ferramenta dispõe também, de um contexto expandido (opção Grow, no utilitário View), é possível por meio da opção source text visualizar o texto completo de onde a palavra de busca foi extraída. Permite analisar os colocados (Collocates) e os agrupamentos (Clusters) da palavra de busca Procedimento de Etiquetagem O etiquetador serve para inserir automaticamente, no corpus códigos que indicam a classe gramatical de cada palavra. Morfossintática (part of speech ou POS): marcação da classe gramatical(substantivo, verbo, adjetivo etc.) de cada palavra. Semântica (semantic): definição do sentido ou da categoria semântica de cada palavra. Para fazer a etiquetagem automática das unidades em estudo percorremos alguns caminhos para tentar chegar perto de uma eficaz etiquetagem para então atribuirmos uma categoria gramatical a todos os textos primeiramente utilizamos o etiquetador Tree-Tagger, um etiquetador morfossintático infelizmente não ficamos satisfeitos com o resultado, queríamos uma etiquetagem semântica para isso optamos por uma etiquetagem via web. O projeto VISL Visual Interactive Syntax Learning 10, um sistema eletrônico de ensino para gramática portuguesa, baseado num analisador automático (taggerparser) para Português, desenvolvido por Eckhard Bick. O sistema fornece uma análise completa morfológica e sintática em um léxico de lemas. O formalismo tem suas bases na tradicional Constraint Grammar (CG), introduzida por Fred Karlsson (1990, 1995). Embora usando um conjunto de etiquetas gramaticais bastante diversificados, o parser alcança um nível de correção de 99% em termos 10 VISL Disponível em : Acesso em 10 fevereiro 2011

112 102 de morfologia (classe de palavras e flexão) e 97-98% em termos de sintaxe (BICK 1996, ). Fizemos a etiquetagem através de upload, enviamos 1711 arquivos com os textos que eram para serem etiquetados pelo o VISL. O objetivo do VISL é a etiquetagem gramatical de corpora, o partidor parser permite buscas complexas juntando ao mesmo tempo palavras e lemas, classe de palavras e função sintática. A CG formaliza o processo cognitivo de desambiguação em um conjunto de regras que constringem por intermédio de condições contextuais interpretações possíveis para cada palavra que será escolhida ou rejeitada. Essas regras compilam-se através de um partidor parser reducional nos níveis morfológicos e semânticos, seleciona a etiqueta certa O copilador VISL aplica as regras a certo contexto definido por delimitadores. Delimitadores são marcadores de fronteiras como por exemplo: pontuação. As regras podem referir-se a fronteiras com símbolos reservados >>>(fronteira direita) e <<< (fronteira esquerda). 5.2 Gramática Constritiva Ainda em Bick (1996, 2000) explica a diferença entre o sistema VISL e outros sistemas de ensino de sintaxe e o diferencial e o trabalho com linguagem natural, não restrita. Tal característica e atribuída a robustez do sistema de base, uma Gramática Constritiva (CG) para o Português. A maioria das palavras em textos de língua natural é: quando vista isoladamente ambígua quanto a classe de palavra, flexão, função sintática, conteúdo semântico etc. A Gramática Constritiva tenta formalizar o processo cognitivo de desambigüização em um conjunto de regras que constringem, por intermédio de condições contextuais, qual das interpretações possíveis para cada palavra será escolhida ou rejeitada. Antes de embarcar no processo de desambigüização, uma CG necessita do input (1) de um analisador morfológico que, no caso do sistema português, trata de

113 103 flexão, derivação e controle de lemas possíveis num léxico abrangente, de onde também tira informação secundária, de regência e de semântica, para a contextualização. (1) "<nunca>" "nunca" ADV "<como>" "como" <rel> ADV "como" <interr> ADV "como" KS "como" <vt> V PR 1S VFIN "<peixe>" Na interface do VISL utilizamos o sistema para o português PALAVRAS como modelo, a equipe VISL construiu um núcleo de ferramentas e bancos de dados lingüísticos para usar através da Internet. Trabalha-se hoje com a gramática, e especificamente a sintaxe, de 14 línguas, entre elas 6 com análise automática CG. Áreas mais recentes de atividade são semântica e tradução automática, como também a coleção e etiquetagem de corpora. Ao lado do sistema aberto, foi estabelecida uma base de orações controladas para todas as línguas VISL, cobrindo vários fenômenos sintáticos de uma maneira mais sistemática. Na interface de ensino, usuários podem escolher entre diversos filtros notacionais, apoiando diferentes paradigmas descritivos da língua. Exemplos são exercícios nos quais as palavras são coloridas para marcar sua classe, e árvores de sintaxe gráficas construídas pelo estudante e controladas pelo computador, com etiquetas de forma e função em cada nó. O projeto AC/DCVISL é um projeto de pesquisa e desenvolvimento no Instituto de Linguagem e Comunicação (ISK), University of Southern Denmark (SDU). Desde setembro de 1996, funcionários e estudantes ISK foram projetar e implementar ferramentas de gramática de internet para educação e pesquisa.

114 104 Um conjunto de etiquetas utilizadas na partição parser do PALAVRAS Constrait Grammar, incluindo as categorias semânticas e valência de etiquetas semânticas para substantivos PALAVRAS atribui ângulo entre parênteses para etiquetas semânticas e para a maioria dos substantivos e verbos e alguns adjetivos. As 157 etiquetas semânticas usadas para os substantivos são classes de protótipos, como <Hprof> por 'profissional', que também se traduzem em um subconjunto de recursos atômica tomadas a partir de uma lista de 16 valores. As etiquetas semânticas são bilíngües motivado (alternativas tradução Português-Dinamarquês) e palavras polissêmicas terá, assim, várias marcas. O subsistema semântico está em fase experimental, e não sujeito a uma clarificação completa neste momento, embora possa - juntamente com o subsistema de valência - produzir um grau razoável de resolução polissemia até agora. A lista tag substantivo abaixo está em ordem alfabética, com as tags em maiúsculas em primeiro lugar O analisador sintático PALAVRAS PALAVRAS é um analisador automático (tagger-parser) para português que foi desenvolvido por Eckhard Bick no contexto dum projeto de doutoramento ( ) na Universidade de Århus (Dinamarca). O sistema apoia-se num léxico de lemas e milhares de regras gramaticais para fornecer uma análise completa, tanto morfológica como sintática, de qualquer texto. O formalismo aplicado integrase na tradição da Constraint Grammar (CG), introduzido por Fred Karlsson (Universidade de Helsínquia, Finlândia) em Embora usando um conjunto de etiquetas gramaticais bastante diversificado, o parser alcança um nível de correção de 99% em termos de morfologia (classe de palavras e flexão), e 97-98% em termos de sintaxe.

115 105 As categorias semânticas do etiquetador são listados alguns exemplos de categorias semânticas que integram o etiquetador se desdobram e sub-categorias que se interconectam como por exemplo: A subcategoria <Aorn> Pássaros (Águia, bem te-vi) da categoria prototípica Animal pode co-ocorrer na categoria prototípica food por exemplo com a palavras Perdizes que pode o nome de uma categoria de pássaro e ao mesmo tempo um pássaro comestível. Na categoria prototípica de Lugar termos ambíguos como Lima no contexto do corpus de estudo é uma cidade e também uma fruta Categoria Prototípica Animal O conjunto de etiquetas que caracteriza a categoria prototípica 11 Animal é denominado pela etiqueta guarda-chuva <A> (fêmea, fóssil, parasita, predador) e outras subcategorias que tem como objetivo abarcar um domínio prototípico Animal, as subetiquetas são denominadas por: <AA> Grupo de animais, por exemplo, cardumes, enxames, passarada, ninhada etc. <Adom> Animais domésticos ou grandes mamíferos, por exemplo, Leão, Leoa, cachorro etc. <AAdom> Grupo de animais domesticado, por exemplo, boiada. <Aich> Grupo de animais marinhos, por exemplo, tubarão, golfinho etc. <Amyth> Animais mitológicos (Basilisco) <Azo> Animais de campo, por exemplo, a raposa. <Aorn> Pássaros (Águia, bem-te-vi). <Aent> Insetos (borboleta) <Acell> Células animais (bactérias, células do sangue: linfócito). 11 Links que explicam : Disponível em <

116 Categoria prototípica Plant (Vegetação) O conjunto de etiquetas que caracteriza a categoria prototípica Plant (vegetação) é denominado pela etiqueta guarda-chuva <B> e outras subcategorias que tem como objetivo abarcar um domínio prototípico da vegetação, as etiquetas são denominadas por: <BB> Grupo de plantas, por exemplo, plantio no campo, vegetação de florestas e matas. <Btree> Árvores, por exemplo, Oliveira, Palmeira. <Bflo> Flor (rosa, taraxaco). <Bbush> Bush, arbustivo (Rododendro, Tamariz) inclui também <fruit> (frutas, grãos, nozes: Maçã, Morango, Avela, melancia etc Categoria prototípica de Humanos O conjunto de etiquetas que caracteriza a categoria prototípica Humanos é denominado pela etiqueta guarda-chuva <H> e outras subcategorias que tem como objetivo abarcar um domínio prototípico de grupos humanos, as subetiquetas são denominadas por: <HH> Grupo de pessoas (organizações, equipes, empresas, por exemplo, editora). <Hattr> Atributivo marca guarda-chuva humano (ista-muitos-ante) <Hbio> Humanos classificados por critérios biológicos, por exemplo, raça (caboclo, mestiço) ou idade ( Bebe, Adulto) <Hfam> Humanos com a família ou outra relação de parentesco como pai, filho, noiva etc. <Hideo> Humana Ideologia (Comunista, implica <Hattr>), também: seguidor, (dadaista) discípulo.

117 107 <Hmyth> Humanoid mítica (deuses, humanóides conto de fadas, curupira duende). <Hnat> Humanos Nacionalidade (brasileiro, alemão), também: (lisboeta) habitante. <Hprof> Humanos Professional (marinheiro, implica <Hattr>), também: esporte, hobby (alpinista). <Hsick> Sick humanos (alguns: asmático, diabético, <sick> cp). <Htit> Substantivo Título (rei, minha senhora) Categoria prototípica de Lugar e Espaço O conjunto de etiquetas que caracteriza a categoria prototípica de Lugar e Espaço é denominado pela etiqueta guarda-chuva <L>) e outras subcategorias que tem como objetivo abarcar um domínio prototípico do espaço, dos lugares, as subetiquetas são denominadas por: <Labs> Lugar abstrato (anverso. Auge). <Lciv> Civitas, país, cidade, concelho (igual <L> + <HH>, Cidade, País). <Lcover> Cover, a tampa (lona colcha Tampa). <Lh> Lugar Funcional (anfiteatro Aeroporto, cp. <build> Para apenas um edifício), construído ou humano-humano utilizado. <Lopening> Abertura, buraco (Apertura, fossa). <Lpath> Path (estrada, rua etc.: rua, pista). <Lstar> Objeto Star (planetas, cometas: quasar Planeta). <Lsurf> Superfície (verniz, face, cp. <Lcover>). <Ltip> Lugar da ponta, de ponta (pico da Pontinha, cp. <Labs>). <Ltop> Geográfica, lugar natural (Promontório, Pântano). <Ltrap> Lugar armadilha (Armadilha, armazelo). <Lwater> Lugar de água (rio, lago, mar, Fonte, Foz, Lagoa).

118 108 cp. também <bar> (barreira), <build> (edifício), <inst> (instituição), <pict> (foto), <sit> (situação) cp. também protótipos posição: <pos-an> (posição anatômica), <pos-soc> (posição social) Categoria prototípica de Comida O conjunto de etiquetas que caracteriza a categoria prototípica de Comida é denominado pela etiqueta guarda-chuva <food> e outras subcategorias que tem como objetivo abarcar um domínio prototípico comida as subetiquetas são denominadas por: <food> comida natural / simplex (aveia, Açúcar, carne, até agora, incluindo <spice>) <food-c> alimentos contáveis (ovo, dente de alho, a maioria são <fruit> ou <food-ch>). <food-h> alimentos da culinária (caldo verde, lasanha). <food-ch> alimentos contáveis da culinária (biscoito, enchido, panetone, pastel). cp. também <drink>, <fruit>. mais categorias propostas: <spice> <fight> luta, o conflito (também <activity> e + TEMP, briga, querela) <fruit> frutas, nozes (na sua maioria ainda marcada como <food-c>, amora, avelã, cebola). <furn> móveis (cama, Cadeira, quadro). 8.

119 109 6 EXTRAÇÃO DAS REDES LÉXICO-SEMÂNTICAS. Uma rede semântica é para a lingüística uma rede de relações entre palavras de uma língua. As redes léxico semânticas são redes de expressões lexicais que compartilham atributos semânticos por exemplo, dos atributos semânticos considerados chaves na categoria food observa-se que o item pão esta associado ao destino Peru, lima esta associado ao destino Peru. Portanto pão e lima compartilham o mesmo atributo Distribuição do Léxico por Medidas de Frequência Numa primeira etapa,o léxico total obtido nos textos colhidos no banco de dados da Folha.com no período estudado sobre o campo do turismo latinoamericano foi de palavras. Segundo Berber-Sardinha (2004 p. 26) esse corpus de referência seria classificado, de acordo com a quantidade de palavras, como Médio-grande (de 1 milhão a 10 milhões de palavras). Os tokens representam a quantidade total de palavras nos textos, os types representam a quantidade de palavras não repetidas distintas nos textos. O número total de types no corpus são palavras conforme a Tabela 4, que mostra a distribuição da freqüência absoluta e relativa do número de textos, tokens e types de todos os destinos incluindo os textos que se referem à América Latina e América do Sul ( cf 3.6). Tabela 4: Distribuição de Freqüência dos Corpora dos 31 Destinos Período 09/01/2001 até o dia 26/08/2010 Destinos/países-região Nº de textos tokens types % nº de textos %tokens %types Argentina ,16 19,32 11,54 Chile ,37 15,83 9,77

120 110 Período 09/01/2001 até o dia 26/08/2010 Destinos/países-região Nº de textos tokens types % nº de textos %tokens %types América Latina ,66 8,66 7,56 México ,21 7,38 7,09 Peru ,00 6,59 6,77 Caribe ,08 6,22 6,31 América do Sul ,24 5,36 5,78 Uruguai ,74 3,63 3,80 Cuba ,15 3,55 4,46 Equador ,14 2,77 3,75 Bolívia ,70 2,56 3,41 Paraguai ,54 2,37 2,97 Costa Rica ,97 2,36 3,47 Colômbia ,33 1,58 2,67 Venezuela ,61 1,49 2,35 Panamá ,53 1,37 2,39 Guatemala ,13 1,36 2,06 Aruba ,17 1,32 1,75 Antilhas ,17 1,23 2,04 Jamaica ,17 1,21 2,06 Republica Dominicana ,89 1,03 1,37 Guiana ,40 0,62 1,07 Honduras ,60 0,46 1,06 Haiti ,36 0,39 0,96 Suriname ,32 0,33 0,82 Barbados ,36 0,33 0,65 El Salvador ,28 0,21 0,63 Nicarágua ,24 0,20 0,58 Berlize ,28 0,14 0,41 Belize ,08 0,08 0,27 Trinidad ,12 0,04 0,16 TOTAL , Processo de filtragem dos corpora para estudo por destino

121 111 Numa segunda etapa,optou-se por delimitar a amostra em 11 destinos: Argentina, Bolívia, Caribe, Chile, Colômbia, México, Equador, Paraguai, Peru, Uruguai, Venezuela. O número total de textos analisados foi de O número total de palavras foi de , o número total de types Foi calculada a freqüência de palavras considerando sua lematização em cada destino. As colunas com % tokens, % types, % textos referem-se à base determinada pelo total 1 e as colunas % tokens T, % types T e % textos T referem-se à base determinada pelo total 2. Os totais 1 referem-se ao conjunto de textos dos 11 destinos e os totais 2 referem-se ao conjunto de textos da América Latina (AL), América do Sul (AS) e mais 29 países coletados no período de 09/01/2001 até 26/08/2010 conforme mostra a Tabela 5. Tabela 5: Distribuição da Freqüência Normalizada dos 11 Destinos TOKENS TYPES TEXTOS %Tokens %Types %Textos % tokenst % typest %textos T ARGENTINA ,73 19,10 27,82 19,32 11,54 19,16 BOLIVIA ,67 5,63 3,92 2,56 3,41 2,70 CHILE ,73 16,17 19,40 15,83 9,77 13,37 MEXICO ,59 11,73 11,92 7,38 7,09 8,21 URUGUAI ,20 6,29 5,44 3,63 3,80 3,74 CARIBE ,93 10,44 8,83 6,22 6,31 6,08 COLOMBIA ,27 4,42 3,39 1,58 2,67 2,33 EQUADOR ,97 6,20 4,56 2,77 3,75 3,14 PARAGUAI ,40 4,91 3,68 2,37 2,97 2,54 PERU ,45 11,21 8,71 6,59 6,77 6,00 VENEZUELA ,05 3,89 2,34 1,43 2,35 1,61 média ,09 9,09 9,09 d.padrão ,57 5,08 7,96 Total Total Conforme figura 6 do total de textos, Argentina tem representatividade equivalente a 19,16 a cada 100 textos. Chile com 13,37, México com 8,21, Caribe com 6,08,Uruguai com 3,74, Equador com 3,14, Bolívia com 2,70, Paraguai com 2, 54 Colômbia com 2,33 e Venezuela com 1,61.

122 112 Esses valores equivalem a uma porcentagem de: 28% dos textos são para o destino Argentina, 19% para o Chile, 12% para o México, 9%, Caribe, 9% Peru, 5% para Equador, 5% Uruguai, 4% Paraguai e Bolívia, 3% Colômbia e 2% Venezuela. Figura 6: Distribuição dos Textos nos 11 Destinos/Países-Região Figura 7: Distribuição de Frequência de Tokens e Types de 11 destinos

Introdução ao EBSCOhost 2.0

Introdução ao EBSCOhost 2.0 Introdução ao EBSCOhost 2.0 Tutorial support.ebsco.com O que é? O EBSCO Host é um poderoso sistema de referência on-line acessível através da Internet, e oferece uma variedade de bases de dados de texto

Leia mais

A PÁGINA DISCIPLINAR DE MATEMÁTICA DO PORTAL DIA A DIA EDUCAÇÃO

A PÁGINA DISCIPLINAR DE MATEMÁTICA DO PORTAL DIA A DIA EDUCAÇÃO A PÁGINA DISCIPLINAR DE MATEMÁTICA DO PORTAL DIA A DIA EDUCAÇÃO Resumo: Dolores Follador Secretaria de Estado da Educação do Paraná e Faculdades Integradas do Brasil - Unibrasil doloresfollador@gmail.com

Leia mais

ADM041 / EPR806 Sistemas de Informação

ADM041 / EPR806 Sistemas de Informação ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes

Leia mais

SUGESTÕES PARA ARTICULAÇÃO ENTRE O MESTRADO EM DIREITO E A GRADUAÇÃO

SUGESTÕES PARA ARTICULAÇÃO ENTRE O MESTRADO EM DIREITO E A GRADUAÇÃO MESTRADO SUGESTÕES PARA ARTICULAÇÃO ENTRE O MESTRADO EM DIREITO E A GRADUAÇÃO Justificativa A equipe do mestrado em Direito do UniCEUB articula-se com a graduação, notadamente, no âmbito dos cursos de

Leia mais

Introdução à Computação

Introdução à Computação Aspectos Importantes - Desenvolvimento de Software Motivação A economia de todos países dependem do uso de software. Cada vez mais, o controle dos processos tem sido feito por software. Atualmente, os

Leia mais

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS. Aula 1. Prof. Rafael Dias Ribeiro. M.Sc.

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS. Aula 1. Prof. Rafael Dias Ribeiro. M.Sc. MODELAGEM DE DADOS PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS Aula 1 Prof. Rafael Dias Ribeiro. M.Sc. @ribeirord 1 Objetivos: Apresenta a diferença entre dado e informação e a importância

Leia mais

Como a Copa do Mundo 2014 vai movimentar o Turismo Brasileiro

Como a Copa do Mundo 2014 vai movimentar o Turismo Brasileiro Como a Copa do Mundo 214 vai movimentar o Turismo Brasileiro 9 dias O estudo As empresas Principais conclusões a 9 dias da Copa 1 principais emissores 1 Desempenho das cidades-sede Chegadas internacionais

Leia mais

Midiatização: submissão de outras instituições à lógica da mídia.

Midiatização: submissão de outras instituições à lógica da mídia. Midiatização: submissão de outras instituições à lógica da mídia. Questão-chave: como a mídia altera o funcionamento interno de outras entidades sociais quanto às suas relações mútuas. Lógica da mídia:

Leia mais

Política de Privacidade da Golden Táxi Transportes Executivo. Sua Privacidade Na Golden Táxi Transportes Executivo. acredita que, como nosso

Política de Privacidade da Golden Táxi Transportes Executivo. Sua Privacidade Na Golden Táxi Transportes Executivo. acredita que, como nosso Política de Privacidade da Golden Táxi Transportes Executivo. Sua Privacidade Na Golden Táxi Transportes Executivo. acredita que, como nosso visitante on-line, você tem o direito de saber as práticas que

Leia mais

5 Conclusões 5.1. Síntese do estudo

5 Conclusões 5.1. Síntese do estudo 5 Conclusões 5.1. Síntese do estudo Este estudo teve como objetivo contribuir para a compreensão do uso das mídias sociais, como principal ferramenta de marketing da Casar é Fácil, desde o momento da sua

Leia mais

Cinco principais qualidades dos melhores professores de Escolas de Negócios

Cinco principais qualidades dos melhores professores de Escolas de Negócios Cinco principais qualidades dos melhores professores de Escolas de Negócios Autor: Dominique Turpin Presidente do IMD - International Institute for Management Development www.imd.org Lausanne, Suíça Tradução:

Leia mais

15 Computador, projeto e manufatura

15 Computador, projeto e manufatura A U A UL LA Computador, projeto e manufatura Um problema Depois de pronto o desenho de uma peça ou objeto, de que maneira ele é utilizado na fabricação? Parte da resposta está na Aula 2, que aborda as

Leia mais

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1. O que é a ciência de dados (data science). Discussão do conceito Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.3, Outubro, 2015 Nota prévia Esta apresentação tem por objetivo, proporcionar

Leia mais

Proposta Revista MARES DE MINAS

Proposta Revista MARES DE MINAS SATIS 2011 Proposta Revista MARES DE MINAS 21/03/2011 A SATIS Índice 1 A Satis 1 A Proposta 1 Serviços 2 Mapa do Site 2 SEO 3 Sistema de gerenciamento de conteudo 4 Cronograma e Prazos 5 Investimento 6

Leia mais

CRIAÇÃO DO SITE DA DISCIPLINA DE EXPERIMENTAÇÃO E DA CENTRAL DE ANÁLISES ESTATÍSTICAS NA UTFPR-DV

CRIAÇÃO DO SITE DA DISCIPLINA DE EXPERIMENTAÇÃO E DA CENTRAL DE ANÁLISES ESTATÍSTICAS NA UTFPR-DV CRIAÇÃO DO SITE DA DISCIPLINA DE EXPERIMENTAÇÃO E DA CENTRAL DE ANÁLISES ESTATÍSTICAS NA UTFPR-DV 1. Identificação do proponente Nome: Moeses Andrigo Danner Vínculo com a instituição: Docente permanente

Leia mais

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia.

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia. 1 Introdução aos Sistemas de Informação 2002 Aula 4 - Desenvolvimento de software e seus paradigmas Paradigmas de Desenvolvimento de Software Pode-se considerar 3 tipos de paradigmas que norteiam a atividade

Leia mais

Arquitetura de Informação

Arquitetura de Informação Arquitetura de Informação Ferramentas para Web Design Prof. Ricardo Ferramentas para Web Design 1 Arquitetura de Informação? Ferramentas para Web Design 2 Arquitetura de Informação (AI): É a arte de expressar

Leia mais

Os desafios do Bradesco nas redes sociais

Os desafios do Bradesco nas redes sociais Os desafios do Bradesco nas redes sociais Atual gerente de redes sociais do Bradesco, Marcelo Salgado, de 31 anos, começou sua carreira no banco como operador de telemarketing em 2000. Ele foi um dos responsáveis

Leia mais

FEMSA gerencia mais de 80 mil tickets mensais de TI, Finanças e RH com CA Service Desk Manager

FEMSA gerencia mais de 80 mil tickets mensais de TI, Finanças e RH com CA Service Desk Manager CUSTOMER SUCCESS STORY FEMSA gerencia mais de 80 mil tickets mensais de TI, Finanças e RH com CA Service Desk Manager PERFIL DO CLIENTE Indústria: Bebidas Companhia: FEMSA Funcionários: +177 mil (global)

Leia mais

ü Curso - Bacharelado em Sistemas de Informação

ü Curso - Bacharelado em Sistemas de Informação Curso - Bacharelado em Sistemas de Informação Nome e titulação do Coordenador: Coordenador: Prof. Wender A. Silva - Mestrado em Engenharia Elétrica (Ênfase em Processamento da Informação). Universidade

Leia mais

MARKETING DE RELACIONAMENTO UMA FERRAMENTA PARA AS INSTITUIÇÕES DE ENSINO SUPERIOR: ESTUDO SOBRE PORTAL INSTITUCIONAL

MARKETING DE RELACIONAMENTO UMA FERRAMENTA PARA AS INSTITUIÇÕES DE ENSINO SUPERIOR: ESTUDO SOBRE PORTAL INSTITUCIONAL MARKETING DE RELACIONAMENTO UMA FERRAMENTA PARA AS INSTITUIÇÕES DE ENSINO SUPERIOR: ESTUDO SOBRE PORTAL INSTITUCIONAL Prof. Dr. José Alberto Carvalho dos Santos Claro Mestrado em Gestão de Negócios Universidade

Leia mais

Programação com acesso a BD. Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br

Programação com acesso a BD. Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br Programação com acesso a BD Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br 1 Introdução BD desempenha papel crítico em todas as áreas em que computadores são utilizados: Banco: Depositar ou retirar

Leia mais

COLIVRE Cooperativa de Tecnologias Livres www.colivre.coop.br contato@colivre.coop.br Telefone: (71) 3011-2199 CNPJ: 07.970.

COLIVRE Cooperativa de Tecnologias Livres www.colivre.coop.br contato@colivre.coop.br Telefone: (71) 3011-2199 CNPJ: 07.970. Razões para usar Noosfero como plataforma de rede social da USP COLIVRE Cooperativa de Tecnologias Livres www.colivre.coop.br contato@colivre.coop.br Telefone: (71) 3011-2199 CNPJ: 07.970.746/0001-77 Contato:

Leia mais

OBSERVATÓRIO DE GESTÃO DA INFORMAÇÃO. Palavras-chave: Gestão da Informação. Gestão do conhecimento. OGI. Google alertas. Biblioteconomia.

OBSERVATÓRIO DE GESTÃO DA INFORMAÇÃO. Palavras-chave: Gestão da Informação. Gestão do conhecimento. OGI. Google alertas. Biblioteconomia. XIV Encontro Regional dos Estudantes de Biblioteconomia, Documentação, Ciência da Informação e Gestão da Informação - Região Sul - Florianópolis - 28 de abril a 01 de maio de 2012 RESUMO OBSERVATÓRIO DE

Leia mais

INTRODUÇÃO A PORTAIS CORPORATIVOS

INTRODUÇÃO A PORTAIS CORPORATIVOS INTRODUÇÃO A PORTAIS CORPORATIVOS Conectt i3 Portais Corporativos Há cinco anos, as empresas vêm apostando em Intranet. Hoje estão na terceira geração, a mais interativa de todas. Souvenir Zalla Revista

Leia mais

MEMÓRIA URBANA DE PALMAS-TO: LEVANTAMENTO DE INFORMAÇÕES E MATERIAL SOBRE O PLANO DE PALMAS E SEUS ANTECEDENTES

MEMÓRIA URBANA DE PALMAS-TO: LEVANTAMENTO DE INFORMAÇÕES E MATERIAL SOBRE O PLANO DE PALMAS E SEUS ANTECEDENTES MEMÓRIA URBANA DE PALMAS-TO: LEVANTAMENTO DE INFORMAÇÕES E MATERIAL SOBRE O PLANO DE PALMAS E SEUS ANTECEDENTES Nome dos autores: Gislaine Biddio Rangel¹; Ana Beatriz Araujo Velasques². 1 Aluna do Curso

Leia mais

Instituto de Educação Tecnológica Pós-graduação Gestão e Tecnologia da Informação - Turma 25 20/03/2015. Big Data Analytics:

Instituto de Educação Tecnológica Pós-graduação Gestão e Tecnologia da Informação - Turma 25 20/03/2015. Big Data Analytics: Instituto de Educação Tecnológica Pós-graduação Gestão e Tecnologia da Informação - Turma 25 20/03/2015 Big Data Analytics: Como melhorar a experiência do seu cliente Anderson Adriano de Freitas RESUMO

Leia mais

Módulo 4: Gerenciamento de Dados

Módulo 4: Gerenciamento de Dados Módulo 4: Gerenciamento de Dados 1 1. CONCEITOS Os dados são um recurso organizacional decisivo que precisa ser administrado como outros importantes ativos das empresas. A maioria das organizações não

Leia mais

PIC. Componentes da PIC 1. o bimestre. Produção Integrada ao Conteúdo

PIC. Componentes da PIC 1. o bimestre. Produção Integrada ao Conteúdo PIC VERSÃO PARA O PROFESSOR VERSÃO PARA O PROFESSOR 9. o ano Ensino Fundamental Produção Integrada ao Conteúdo Componentes da PIC 1. o bimestre Arte Ciências Geografia A nota de PIC é a média entre a nota

Leia mais

Mídias sociais como apoio aos negócios B2C

Mídias sociais como apoio aos negócios B2C Mídias sociais como apoio aos negócios B2C A tecnologia e a informação caminham paralelas à globalização. No mercado atual é simples interagir, aproximar pessoas, expandir e aperfeiçoar os negócios dentro

Leia mais

Como a Copa do Mundo 2014 vai movimentar o Turismo Brasileiro

Como a Copa do Mundo 2014 vai movimentar o Turismo Brasileiro Como a Copa do Mundo 2014 vai movimentar o Turismo Brasileiro O estudo Destaques Os 10 principais emissores 10 Chegadas internacionais Viagens domésticas Cidades sedes Viagens dos brasileiros ao exterior

Leia mais

SAP Customer Success Story Turismo Hotel Urbano. Hotel Urbano automatiza controle financeiro e internaliza contabilidade com SAP Business One

SAP Customer Success Story Turismo Hotel Urbano. Hotel Urbano automatiza controle financeiro e internaliza contabilidade com SAP Business One Hotel Urbano automatiza controle financeiro e internaliza contabilidade com SAP Business One Geral Executiva Nome da Hotel Urbano Indústria Turismo Produtos e Serviços Comercialização online de pacotes

Leia mais

Guia Básico de Utilização da Biblioteca Virtual da FAPESP. Thais Fernandes de Morais Fabiana Andrade Pereira

Guia Básico de Utilização da Biblioteca Virtual da FAPESP. Thais Fernandes de Morais Fabiana Andrade Pereira Guia Básico de Utilização da Biblioteca Virtual da FAPESP Thais Fernandes de Morais Fabiana Andrade Pereira Centro de Documentação e Informação da FAPESP São Paulo 2015 Sumário Introdução... 2 Objetivos...

Leia mais

PRIMAVERA RISK ANALYSIS

PRIMAVERA RISK ANALYSIS PRIMAVERA RISK ANALYSIS PRINCIPAIS RECURSOS Guia de análise de risco Verificação de programação Risco rápido em modelo Assistente de registro de riscos Registro de riscos Análise de riscos PRINCIPAIS BENEFÍCIOS

Leia mais

PESQUISA SOBRE O PERFIL DE ALUNOS NA UTILIZAÇÃO DE UM SITE DOCENTE DO ENSINO SUPERIOR

PESQUISA SOBRE O PERFIL DE ALUNOS NA UTILIZAÇÃO DE UM SITE DOCENTE DO ENSINO SUPERIOR PESQUISA SOBRE O PERFIL DE ALUNOS NA UTILIZAÇÃO DE UM SITE DOCENTE DO ENSINO SUPERIOR Wesley Humberto da Silva (Fundação Araucária), André Luis Andrade Menolli (Orientador) e-mail: wesleyhumberto11@mail.com

Leia mais

ANEXO 1 - QUESTIONÁRIO

ANEXO 1 - QUESTIONÁRIO ANEXO 1 - QUESTIONÁRIO 1. DIMENSÃO PEDAGÓGICA 1.a) ACESSIBILIDADE SEMPRE ÀS VEZES NUNCA Computadores, laptops e/ou tablets são recursos que estão inseridos na rotina de aprendizagem dos alunos, sendo possível

Leia mais

COMO USAR OS VÍDEOS ONLINE PARA ALAVANCAR O MEU E-COMMERCE

COMO USAR OS VÍDEOS ONLINE PARA ALAVANCAR O MEU E-COMMERCE COMO USAR OS VÍDEOS ONLINE PARA ALAVANCAR O MEU E-COMMERCE White Paper com dicas essenciais para quem já trabalha ou pretende trabalhar com vídeos em lojas virtuais. 1 PORQUE USAR VÍDEOS ONLINE NO E-COMMERCE?

Leia mais

CoNaIISI 2014 2º Congresso Nacional de Engenharia Informática / Sistemas de Informação

CoNaIISI 2014 2º Congresso Nacional de Engenharia Informática / Sistemas de Informação CoNaIISI 2014 2º Congresso Nacional de Engenharia Informática / Sistemas de Informação San Luis, 13 y 14 de Novembro de 2014 CHAMADA PARA APRESENTAÇÃO DE TRABALHOS O CoNaIISI é organizado pela rede de

Leia mais

. Indice. 1 Introdução. 2 Quem Somos. 3 O que Fazemos. 4 Planejamento. 5 Serviços. 6 Cases. 9 Conclusão

. Indice. 1 Introdução. 2 Quem Somos. 3 O que Fazemos. 4 Planejamento. 5 Serviços. 6 Cases. 9 Conclusão . Indice 1 Introdução 2 Quem Somos 3 O que Fazemos 4 Planejamento 5 Serviços 6 Cases 9 Conclusão . Introdução 11 Segundo dados de uma pesquisa Ibope de 2013, o Brasil ocupa a terceira posição em quantidade

Leia mais

www.startercomunicacao.com startercomunic@gmail.com

www.startercomunicacao.com startercomunic@gmail.com 7 DICAS IMPERDÍVEIS QUE TODO COACH DEVE SABER PARA CONQUISTAR MAIS CLIENTES www.startercomunicacao.com startercomunic@gmail.com As 7 dicas imperdíveis 1 2 3 Identificando seu público Abordagem adequada

Leia mais

Ajuda ao SciEn-Produção 1. 1. O Artigo Científico da Pesquisa Experimental

Ajuda ao SciEn-Produção 1. 1. O Artigo Científico da Pesquisa Experimental Ajuda ao SciEn-Produção 1 Este texto de ajuda contém três partes: a parte 1 indica em linhas gerais o que deve ser esclarecido em cada uma das seções da estrutura de um artigo cientifico relatando uma

Leia mais

Pequenas e Médias Empresas no Canadá. Pequenos Negócios Conceito e Principais instituições de Apoio aos Pequenos Negócios

Pequenas e Médias Empresas no Canadá. Pequenos Negócios Conceito e Principais instituições de Apoio aos Pequenos Negócios Pequenas e Médias Empresas no Canadá Pequenos Negócios Conceito e Principais instituições de Apoio aos Pequenos Negócios De acordo com a nomenclatura usada pelo Ministério da Indústria do Canadá, o porte

Leia mais

PERFIL DA VAGA: GERENTE DE CONTEÚDOS E METODOLOGIAS

PERFIL DA VAGA: GERENTE DE CONTEÚDOS E METODOLOGIAS O Instituto Akatu é uma organização não governamental sem fins lucrativos que trabalha pela conscientização e mobilização da sociedade para o Consumo Consciente. PERFIL DA VAGA: PERFIL GERAL DA FUNÇÃO

Leia mais

Mineração de Opinião / Análise de Sentimentos

Mineração de Opinião / Análise de Sentimentos Mineração de Opinião / Análise de Sentimentos Carlos Augusto S. Rodrigues Leonardo Lino Vieira Leonardo Malagoli Níkolas Timmermann Introdução É evidente o crescimento da quantidade de informação disponível

Leia mais

INSTRUMENTO NORMATIVO 004 IN004

INSTRUMENTO NORMATIVO 004 IN004 1. Objetivo Definir um conjunto de critérios e procedimentos para o uso do Portal Eletrônico de Turismo da Região disponibilizado pela Mauatur na Internet. Aplica-se a todos os associados, empregados,

Leia mais

Projeto Pedagógico do Bacharelado em Ciência da Computação. Comissão de Curso e NDE do BCC

Projeto Pedagógico do Bacharelado em Ciência da Computação. Comissão de Curso e NDE do BCC Projeto Pedagógico do Bacharelado em Ciência da Computação Comissão de Curso e NDE do BCC Fevereiro de 2015 Situação Legal do Curso Criação: Resolução CONSU no. 43, de 04/07/2007. Autorização: Portaria

Leia mais

Proposta Concessionária Terra Nova Land Rover

Proposta Concessionária Terra Nova Land Rover SATIS 2011 Proposta Concessionária Terra Nova Land Rover 21/03/2011 A SATIS Índice 1 A Satis 1 A Proposta 1 Serviços 2 Mapa do Site 2 SEO 3 Sistema de gerenciamento de conteudo 4 Cronograma e Prazos 5

Leia mais

Análise de Sistemas. Visão Geral: Orientação a Objetos. Prof. José Honorato Ferreira Nunes honorato.nunes@bonfim.ifbaiano.edu.br

Análise de Sistemas. Visão Geral: Orientação a Objetos. Prof. José Honorato Ferreira Nunes honorato.nunes@bonfim.ifbaiano.edu.br Análise de Sistemas Visão Geral: Orientação a Objetos Prof. José Honorato Ferreira Nunes Prof. José Honorato Ferreira Nunes honorato.nunes@bonfim.ifbaiano.edu.br Resumo: VISÃO GERAL: Modelagem de sistemas

Leia mais

Introdução ao Aplicativo de Programação LEGO MINDSTORMS Education EV3

Introdução ao Aplicativo de Programação LEGO MINDSTORMS Education EV3 Introdução ao Aplicativo de Programação LEGO MINDSTORMS Education EV3 A LEGO Education tem o prazer de trazer até você a edição para tablet do Software LEGO MINDSTORMS Education EV3 - um jeito divertido

Leia mais

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS VINICIUS DA SILVEIRA SEGALIN FLORIANÓPOLIS OUTUBRO/2013 Sumário

Leia mais

Número de pessoas com acesso à internet passa de 120 milhões

Número de pessoas com acesso à internet passa de 120 milhões MÍDIA KIT INTERNET Número de pessoas com acesso à internet passa de 120 milhões Segundo pesquisa da Nielsen IBOPE, até o 1º trimestre/2014 número 18% maior que o mesmo período de 2013. É a demonstração

Leia mais

Como melhorar o atendimento ao cliente através de uma abordagem multicanal

Como melhorar o atendimento ao cliente através de uma abordagem multicanal Como melhorar o atendimento ao cliente através de uma abordagem multicanal Os clientes estão cada vez mais exigentes e procuram por empresas que prestem um atendimento rápido, eficaz e sem esforço em qualquer

Leia mais

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o DATABASE MARKETING No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o empresário obter sucesso em seu negócio é

Leia mais

4 Metodologia da Pesquisa

4 Metodologia da Pesquisa 79 4 Metodologia da Pesquisa Este capítulo se preocupa em retratar como se enquadra a pesquisa de campo e como foram desenvolvidas as entrevistas incluindo o universo pesquisado e a forma de analisá-las

Leia mais

MODELO DE APRESENTAÇÃO DE PROJETO DE PESQUISA

MODELO DE APRESENTAÇÃO DE PROJETO DE PESQUISA MODELO DE APRESENTAÇÃO DE PROJETO DE PESQUISA PÓS-GRADUAÇÃO EM CIÊNCIA E ENGENHARIA DE MATERIAIS Elaborado por Prof. Dr. Rodrigo Sampaio Fernandes Um projeto de pesquisa consiste em um documento no qual

Leia mais

Planejando o aplicativo

Planejando o aplicativo Um aplicativo do Visual FoxPro geralmente inclui um ou mais bancos de dados, um programa principal que configura o ambiente de sistema do aplicativo, além de uma interface com os usuários composta por

Leia mais

TAM: o espírito de servir no SAC 2.0

TAM: o espírito de servir no SAC 2.0 TAM: o espírito de servir no SAC 2.0 Os primeiros passos do SAC 2.0 da TAM A trajetória da TAM sempre foi guiada pela disponibilidade de servir seus clientes; nas redes sociais, essa filosofia não poderia

Leia mais

EMENTAS DAS DISCIPLINAS

EMENTAS DAS DISCIPLINAS EMENTAS DAS DISCIPLINAS CURSO CST ANÁLISE E DESENVOLVIMENTO DE SISTEMAS INTRODUÇÃO À COMPUTAÇÃO 68 A disciplina estuda a área da informática como um todo e os conceitos fundamentais, abrangendo desde a

Leia mais

Laboratório de Mídias Sociais

Laboratório de Mídias Sociais Laboratório de Mídias Sociais Aula 02 Análise Textual de Mídias Sociais parte I Prof. Dalton Martins dmartins@gmail.com Gestão da Informação Universidade Federal de Goiás O que é Análise Textual? Análise

Leia mais

UTILIZAÇÃO DO AMBIENTE COLABORATIVO TIDIA-AE PELO GRUPO DE GERENCIAMENTO DO VOCABULÁRIO CONTROLADO DO SIBiUSP - BIÊNIO 2011-2013

UTILIZAÇÃO DO AMBIENTE COLABORATIVO TIDIA-AE PELO GRUPO DE GERENCIAMENTO DO VOCABULÁRIO CONTROLADO DO SIBiUSP - BIÊNIO 2011-2013 UTILIZAÇÃO DO AMBIENTE COLABORATIVO TIDIA-AE PELO GRUPO DE GERENCIAMENTO DO VOCABULÁRIO CONTROLADO DO SIBiUSP - BIÊNIO 2011-2013 Adriana Nascimento Flamino 1, Juliana de Souza Moraes 2 1 Mestre em Ciência

Leia mais

Mesa Redonda Novas agendas de atuação e os perfis profissionais em bibliotecas universitárias

Mesa Redonda Novas agendas de atuação e os perfis profissionais em bibliotecas universitárias Mesa Redonda Novas agendas de atuação e os perfis profissionais em bibliotecas universitárias Profa. Dra. Lillian Maria Araújo de Rezende Alvares Coordenadora-Geral de Pesquisa e Manutenção de Produtos

Leia mais

O futuro da educação já começou

O futuro da educação já começou O futuro da educação já começou Sua conexão com o futuro A 10 Escola Digital é uma solução inovadora para transformar a sua escola. A LeYa traz para a sua escola o que há de mais moderno em educação, a

Leia mais

FEMSA Gerencia mais de 80 mil Tickets Mensais de TI, Finanças e RH com CA Service Desk Manager

FEMSA Gerencia mais de 80 mil Tickets Mensais de TI, Finanças e RH com CA Service Desk Manager CUSTOMER SUCCESS STORY Julho 2013 FEMSA Gerencia mais de 80 mil Tickets Mensais de TI, Finanças e RH com CA Service Desk Manager PERFIL DO CLIENTE Indústria: Bebidas Companhia: FEMSA Funcionários: +177

Leia mais

Usando Ferramentas de Busca

Usando Ferramentas de Busca Web Marketing Usando Ferramentas de Busca Marcelo Silveira Novatec Editora Ltda. www.novateceditora.com.br 1 Conhecendo o cenário de pesquisas na Internet Este capítulo apresenta uma visão geral sobre

Leia mais

Sistemas de Gerenciamento do Relacionamento com o Cliente (Customer Relationship Management CRM)

Sistemas de Gerenciamento do Relacionamento com o Cliente (Customer Relationship Management CRM) CRM Definição De um modo muito resumido, pode definir-se CRM como sendo uma estratégia de negócio que visa identificar, fazer crescer, e manter um relacionamento lucrativo e de longo prazo com os clientes.

Leia mais

PANORAMA DO MERCADO Asiático

PANORAMA DO MERCADO Asiático Boletim PANORAMA DO MERCADO Asiático Edição nº 1 Julho/2015 Coordenação Geral de Mercados Americanos/Asiático - CGMA Diretoria de Mercados Internacionais - DMINT Apresentação A série Boletim Panorama dos

Leia mais

Distribuidor de Mobilidade GUIA OUTSOURCING

Distribuidor de Mobilidade GUIA OUTSOURCING Distribuidor de Mobilidade GUIA OUTSOURCING 1 ÍNDICE 03 04 06 07 09 Introdução Menos custos e mais controle Operação customizada à necessidade da empresa Atendimento: o grande diferencial Conclusão Quando

Leia mais

O guia completo para uma presença. online IMBATÍVEL!

O guia completo para uma presença. online IMBATÍVEL! O guia completo para uma presença online IMBATÍVEL! Sumário Introdução 3 Capítulo 1 - Produção de Conteúdo: Por que e Como produzir 5 Capítulo 2 - Distribuição e Divulgação 8 Capítulo 3 - Monitoramento

Leia mais

A Arquivologia como campo de pesquisa: desafios e perspectivas. José Maria Jardim Universidade Federal do Estado do Rio de Janeiro - UNIRIO

A Arquivologia como campo de pesquisa: desafios e perspectivas. José Maria Jardim Universidade Federal do Estado do Rio de Janeiro - UNIRIO A Arquivologia como campo de pesquisa: desafios e perspectivas José Maria Jardim Universidade Federal do Estado do Rio de Janeiro - UNIRIO A indissociabilidade entre ensino/produção/difusão do conhecimento

Leia mais

Bom Crédito. Lembre-se de que crédito é dinheiro. Passos

Bom Crédito. Lembre-se de que crédito é dinheiro. Passos Bom Crédito Lembre-se de que crédito é dinheiro É. Benjamin Franklin, Político Americano e inventor quase impossível passar a vida sem pedir dinheiro emprestado. Seja algo básico como usar um cartão de

Leia mais

Avanços na transparência

Avanços na transparência Avanços na transparência A Capes está avançando não apenas na questão dos indicadores, como vimos nas semanas anteriores, mas também na transparência do sistema. Este assunto será explicado aqui, com ênfase

Leia mais

Engenharia de Requisitos Estudo de Caso

Engenharia de Requisitos Estudo de Caso Engenharia de Requisitos Estudo de Caso Auxiliadora Freire Fonte: Engenharia de Software 8º Edição / Ian Sommerville 2007 Slide 1 Engenharia de Requisitos Exemplo 1 Reserva de Hotel 1. INTRODUÇÃO Este

Leia mais

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios FATEC Cruzeiro José da Silva Ferramenta CRM como estratégia de negócios Cruzeiro SP 2008 FATEC Cruzeiro José da Silva Ferramenta CRM como estratégia de negócios Projeto de trabalho de formatura como requisito

Leia mais

O / 4 FAIXA ETÁRIA SEXO 1.5% 0.2% 6.1% 0.2% 13.5% 25.8% 52.6% 407 entrevistas foram realizadas nos dias 27 e 28 de janeiro de 2010. Feminino.

O / 4 FAIXA ETÁRIA SEXO 1.5% 0.2% 6.1% 0.2% 13.5% 25.8% 52.6% 407 entrevistas foram realizadas nos dias 27 e 28 de janeiro de 2010. Feminino. A TERCEIRA EDIÇÃO DA CAMPUS PARTY BRASIL, REALIZADA EM SÃO PAULO ENTRE OS DIAS 25 E 31 DE JANEIRO DE 2010, REUNIU QUASE 100 MIL PARTICIPANTES PARA DISCUTIR AS TENDÊNCIAS DA INTERNET E DAS MÍDIAS DIGITAIS.

Leia mais

A pesquisa textual em bases de dados e os recursos disponíveis no âmbito da Biblioteca Virtual em Saúde - BVS

A pesquisa textual em bases de dados e os recursos disponíveis no âmbito da Biblioteca Virtual em Saúde - BVS A pesquisa textual em bases de dados e os recursos disponíveis no âmbito da Biblioteca Virtual em Saúde - BVS Competência informacional é um conjunto de competências de aprendizagem e pensamento crítico

Leia mais

Como melhorar a tomada de decisão. slide 1

Como melhorar a tomada de decisão. slide 1 Como melhorar a tomada de decisão slide 1 P&G vai do papel ao pixel em busca da gestão do conhecimento Problema: grande volume de documentos em papel atrasavam a pesquisa e o desenvolvimento. Solução:

Leia mais

FONTES PARA O ESTUDO DO TURISMO

FONTES PARA O ESTUDO DO TURISMO REVISTA CIENTÍFICA ELETRÔNICA TURISMO PERIODICIDADE SEMESTRAL ANO III EDIÇÃO NÚMERO 4 JANEIRO DE 2006 FONTES PARA O ESTUDO DO TURISMO GUARALDO, Tamara de S. Brandão ACEG Faculdade de Ciências Humanas docente

Leia mais

NÃO DEIXE A FRAUDE ON-LINE ATRAPALHAR SEUS NEGÓCIOS SIMPLIFIQUE

NÃO DEIXE A FRAUDE ON-LINE ATRAPALHAR SEUS NEGÓCIOS SIMPLIFIQUE NÃO DEIXE A FRAUDE ON-LINE ATRAPALHAR SEUS NEGÓCIOS SIMPLIFIQUE A GESTÃO DE PAGAMENTO WWW.CYBERSOURCE.COM BRASIL@CYBERSOURCE.COM COMO SER MAIS EFICIENTE, RÁPIDO E SEGURO PARA QUE OS CLIENTES PREFIRAM COMPRAR

Leia mais

GARANTIA DA QUALIDADE DE SOFTWARE

GARANTIA DA QUALIDADE DE SOFTWARE GARANTIA DA QUALIDADE DE SOFTWARE Fonte: http://www.testexpert.com.br/?q=node/669 1 GARANTIA DA QUALIDADE DE SOFTWARE Segundo a NBR ISO 9000:2005, qualidade é o grau no qual um conjunto de características

Leia mais

2 - Sabemos que a educação à distância vem ocupando um importante espaço no mundo educacional. Como podemos identificar o Brasil nesse contexto?

2 - Sabemos que a educação à distância vem ocupando um importante espaço no mundo educacional. Como podemos identificar o Brasil nesse contexto? A EDUCAÇÃO À DISTÂNCIA E O FUTURO Arnaldo Niskier 1 - Qual a relação existente entre as transformações do mundo educacional e profissional e a educação à distância? A educação à distância pressupõe uma

Leia mais

Jornalismo Interativo

Jornalismo Interativo Jornalismo Interativo Antes da invenção da WWW, a rede era utilizada para divulgação de informações direcionados a públicos muito específicos e funcionavam através da distribuição de e-mails e boletins.

Leia mais

SOBRE A TOOLSYSTEMS. ToolSystems Sistemas Fone: (47) 3381-3344

SOBRE A TOOLSYSTEMS. ToolSystems Sistemas Fone: (47) 3381-3344 SOBRE A TOOLSYSTEMS Com mais de 10 anos no mercado, a ToolSystems sistemas se dedica a entender as novas tecnologias para garantir a seus clientes as melhores e mais atuais soluções para Internet. Ao longo

Leia mais

Prototipação de Software

Prototipação de Software UNIVERSIDADE ESTADUAL PAULISTA INSTITUTO DE BIOCIÊNCIAS, LETRAS E CIÊNCIAS EXATAS DEPARTAMENTO DE CIÊNCIAS DE COMPUTAÇÃO E ESTATÍSTICA Prototipação de Software Engenharia de Software 2o. Semestre de 2005

Leia mais

Semântica para Sharepoint. Busca semântica utilizando ontologias

Semântica para Sharepoint. Busca semântica utilizando ontologias Semântica para Sharepoint Busca semântica utilizando ontologias Índice 1 Introdução... 2 2 Arquitetura... 3 3 Componentes do Produto... 4 3.1 OntoBroker... 4 3.2 OntoStudio... 4 3.3 SemanticCore para SharePoint...

Leia mais

Panorama da Avaliação. de Projetos Sociais de ONGs no Brasil

Panorama da Avaliação. de Projetos Sociais de ONGs no Brasil Panorama da Avaliação de Projetos Sociais de ONGs no Brasil Realização Parceria Iniciativa Este documento foi elaborado para as organizações que colaboraram com a pesquisa realizada pelo Instituto Fonte,

Leia mais

Critérios para certificação de Sites SciELO: critérios, política e procedimentos para a classificação e certificação dos sites da Rede SciELO

Critérios para certificação de Sites SciELO: critérios, política e procedimentos para a classificação e certificação dos sites da Rede SciELO Critérios para certificação de Sites SciELO: critérios, política e procedimentos para a classificação e certificação dos sites da Rede SciELO Versão Março 2008 1 Introdução Este documento tem por objetivo

Leia mais

DP6: Gerando novos negócios a partir do monitoramento de redes sociais

DP6: Gerando novos negócios a partir do monitoramento de redes sociais DP6: Gerando novos negócios a partir do monitoramento de redes sociais O núcleo de inteligência em redes sociais Há cinco anos, a DP6, consultoria de marketing digital com foco em inteligência e performance

Leia mais

Feature-Driven Development

Feature-Driven Development FDD Feature-Driven Development Descrição dos Processos Requisitos Concepção e Planejamento Mais forma que conteúdo Desenvolver um Modelo Abrangente Construir a Lista de Features Planejar por

Leia mais

A compra de TI e as redes sociais

A compra de TI e as redes sociais Solicitada por A compra de TI e as redes sociais Como as redes sociais transformaram o processo de compras B2B e as melhores práticas para adaptar as suas estratégias de marketing à nova realidade BRASIL

Leia mais

1 ROTEIRO PARA PROJETO DE PESQUISA

1 ROTEIRO PARA PROJETO DE PESQUISA Roteiro para projeto de pesquisa Gildenir Carolino Santos, 2005. 1 ROTEIRO PARA PROJETO DE PESQUISA Antes de passar para a construção ou montagem de um projeto de pesquisa, é importante saber que esse

Leia mais

Plataformas de BI Qual é a mais adequada para o meu negócio?

Plataformas de BI Qual é a mais adequada para o meu negócio? Plataformas de BI Qual é a mais adequada para o meu negócio? Comparativo prático para escolher a ferramenta perfeita para a sua empresa Faça nosso Quiz e veja as opções que combinam com o seu perfil ÍNDICE

Leia mais

Chamada de Participação V Competição de Avaliação - IHC 2012

Chamada de Participação V Competição de Avaliação - IHC 2012 XI Simpósio Brasileiro de Fatores Humanos em Sistemas Computacionais - 2012 5 a 9 de Novembro de 2012 Cuiabá MT www.ufmt.br/ihc12 Chamada de Participação V Competição de Avaliação - IHC 2012 O Simpósio

Leia mais

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação SOFT DISCIPLINA: Engenharia de software AULA NÚMERO: 08 DATA: / / PROFESSOR: Andrey APRESENTAÇÃO O objetivo desta aula é apresentar e discutir conceitos relacionados a modelos e especificações. Nesta aula

Leia mais

Apresentação. Vitae Tec Tecnologia a Serviço da Vida!

Apresentação. Vitae Tec Tecnologia a Serviço da Vida! Apresentação Vitae Tec Tecnologia a Serviço da Vida! A Vitae Tec A Vitae Tec é uma empresa de tecnologia que tem como missão oferecer serviços e produtos adequados às necessidades do cliente - pessoa física

Leia mais

T U T O R I A I S WEB OF SCIENCE TUTORIAL. Biblioteca da Escola de Engenharia da UFRGS. WEB OF SCIENCE - Tutorial

T U T O R I A I S WEB OF SCIENCE TUTORIAL. Biblioteca da Escola de Engenharia da UFRGS. WEB OF SCIENCE - Tutorial T U T O R I A I S WEB OF SCIENCE TUTORIAL Biblioteca da Escola de Engenharia da UFRGS WEB OF SCIENCE - Tutorial O que é? O Web of Science é uma base de dados que disponibiliza acesso a mais de 9.200 títulos

Leia mais

PROJETO DE REDES www.projetoderedes.com.br

PROJETO DE REDES www.projetoderedes.com.br PROJETO DE REDES www.projetoderedes.com.br Centro Universitário de Volta Redonda - UniFOA Curso Tecnológico de Redes de Computadores 5º período Disciplina: Tecnologia WEB Professor: José Maurício S. Pinheiro

Leia mais

Módulo 15 Resumo. Módulo I Cultura da Informação

Módulo 15 Resumo. Módulo I Cultura da Informação Módulo 15 Resumo Neste módulo vamos dar uma explanação geral sobre os pontos que foram trabalhados ao longo desta disciplina. Os pontos abordados nesta disciplina foram: Fundamentos teóricos de sistemas

Leia mais

UFG - Instituto de Informática

UFG - Instituto de Informática UFG - Instituto de Informática Especialização em Desenvolvimento de Aplicações Web com Interfaces Ricas EJB 3.0 Prof.: Fabrízzio A A M N Soares professor.fabrizzio@gmail.com Aula 13 Web Services Web Services

Leia mais

UNIVERSIDADE FEDERAL DE SANTA CATARINA

UNIVERSIDADE FEDERAL DE SANTA CATARINA UNIVERSIDADE FEDERAL DE SANTA CATARINA CIÊNCIAS DA COMPUTAÇÃO MÁQUINAS DE COMITÊ APLICADAS À FILTRAGEM DE SPAM Monografia submetida à UNIVERSIDADE FEDERAL DE SANTA CATARINA para a obtenção do grau de BACHAREL

Leia mais

PROJETO ARARIBÁ. Um projeto que trabalha a compreensão leitora, apresenta uma organização clara dos conteúdos e um programa de atividades específico.

PROJETO ARARIBÁ. Um projeto que trabalha a compreensão leitora, apresenta uma organização clara dos conteúdos e um programa de atividades específico. PROJETO ARARIBÁ Um projeto que trabalha a compreensão leitora, apresenta uma organização clara dos conteúdos e um programa de atividades específico. ARARIBÁ HISTÓRIA O livro tem oito unidades, divididas

Leia mais