PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC-SP. Denise Delegá-Lúcio

Transcrição

1 1 PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC-SP Denise Delegá-Lúcio A variação entre textos argumentativos e o material didático de inglês: aplicações da análise multidimensional e do Corpus Internacional de Aprendizes de Inglês (ICLE) DOUTORADO EM LINGUÍSTICA APLICADA E ESTUDOS DA LINGUAGEM SÃO PAULO 2013

2 3 PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC-SP Denise Delegá-Lúcio A variação entre textos argumentativos e o material didático de inglês: aplicações da análise multidimensional e do Corpus Internacional de Aprendizes de Inglês (ICLE) DOUTORADO EM LINGUÍSTICA APLICADA E ESTUDOS DA LINGUAGEM Tese apresentada à Banca Examinadora da Pontifícia Universidade Católica de São Paulo, como exigência parcial para obtenção do título de DOUTORA em Linguística Aplicada e Estudos da Linguagem, sob a orientação do Prof. Dr. Antônio Paulo Berber Sardinha. SÃO PAULO 2013

3 5 Tese defendida e aprovada em / / Banca Examinadora

4 7 Para Vera, minha mãe querida e admirada.

5 9 AGRADECIMENTOS Antes de tudo, eu gostaria de agradecer aos meus irmãos, Douglas e Débora; nossos anos de convivência, em meio a dificuldades, brigas, amores, desamores, tempestades e bonanças, moldaram meu caráter e fizeram-me ter a determinação necessária para desenvolver uma tese como esta. Agradeço ao meu pai, que sempre entendeu e alimentou meu lado geek/nerd e, ainda por cima, orgulha-se disso. Agradeço com todo o meu amor, carinho e respeito, ao meu marido, Rodrigo, e ao meu filho, Gabriel, pela imensa paciência, dedicação, abdicação e pelo encorajamento que me permitiram chegar aqui. Agradeço ao Prof. Dr. Tony Berber Sardinha, meu caríssimo orientador, cujos ensinamentos, atenção e insights são um privilégio para poucos. Somente você, Tony, com sua infinita paciência, para convencer uma pesquisadora rebelde como eu a realizar uma pesquisa tão minuciosa e detalhada como esta tese. Muito obrigada mesmo! Agradeço ao Grupo de Estudos em Linguística de Corpus (Gelc) e todos os seus integrantes; sem seus questionamentos ora intrigantes, ora divertidos, ora perturbadores, minha pesquisa seria, sem dúvida, muito mais pobre. Cito, em especial, a Cristina Mayer Acunzo, a Maria Cecília Lopes, a Renata Condi de Souza, a Rosana de Barros Silva e Teixeira e a Telma de Lurdes São Bento Ferreira, pelo apoio de sempre. Agradeço aos professores que participaram dos meus exames de qualificação e defesa: Profa. Dra. Maria Aparecida Caltabiano Magalhães Borges da Silva, Profa. Dra. Maria Cecília Lopes, Profa. Dra. Patrícia Bértoli-Dutra, Profa. Dra. Sandra Madureira, Prof. Eduardo de Carvalho Cassimiro, Profa. Dra. Solange Gervai, Profa. Dra. Renata Condi de Souza. Agradeço aos meus colegas do curso Teachers Links: Profa. Dra. Solange Gervai, Prof. Dr. Francisco Estefogo, Profa. Dra. Andrea da Silva Marques Ribeiro, Profa. Dra. Maria Paula Wadt e Profa. Elizabeth Pow, que me incentivaram com carinho e gentileza. Agradeço à Profa. Dra. Heloísa Collins, por despertar meu interesse pela

6 10 tecnologia e por toda a atenção de seu grupo de pesquisa. Agradeço, ainda, ao Evandro Lisboa Freire, do Grupo de Estudos de Linguística de Corpus (Gelc/Lael), pela criteriosa edição de texto desta tese e por todas as suas sugestões. Por fim, agradeço à Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes), pela bolsa concedida para o desenvolvimento desta pesquisa, e ao Programa de Estudos Pós-Graduados em Linguística Aplicada (Lael). Cito, em especial, a Profa. Dra. Sandra Madureira, sua coordenadora, a Maria Lúcia, sua secretária, e a Márcia, sua bibliotecária, pelo apoio e atenção.

7 11 Fairy tales are more than true: not because they tell us that dragons exist, but because they tell us that dragons can be beaten. (Neil Gaiman, Coraline) I can t go back to yesterday because I was a different person then. (Lewis Carroll, Alice in Wonderland)

8 13 SUMÁRIO LISTA DE FIGURAS LISTA DE GRÁFICOS LISTA DE QUADROS LISTA DE TABELAS RESUMO ABSTRACT INTRODUÇÃO Justificativa Objetivos e perguntas de pesquisa FUNDAMENTAÇÃO TEÓRICA A Linguística de Corpus Breve histórico da Linguística de Corpus Estudos em outras áreas de pesquisa linguística A Linguística de Corpus e o ensino de línguas Corpus: definição, característica e tipos Padrão, colocação, coligação e as concordâncias A Linguística de Corpus de Aprendiz A Análise Multidimensional Breve histórico Definições específicas Características da Análise Multidimensional AMD e as pesquisas no ensino AMD e as pesquisas com corpora de aprendiz Desenvolvimento de atividades didáticas Ensino guiado pelos dados Proposta de Ramos Proposta de Berber de Sardinha... 73

9 Atividades com corpora centradas nas concordâncias Atividades com corpora centradas no texto Atividades com corpora centradas em materiais multimídia e/ou multigêneros REFERENCIAL TEÓRICO A argumentação Ensino aprendizado de línguas Behaviorismo As hipóteses de Krashen O ensino comunicativo O aprendizado consciente METODOLOGIA Descrição dos corpora Corpora de estudo Corpus de referência Descrição dos programas computacionais utilizados IBM SPSS Statistics, versão As janelas O menu da tecla analisar O menu da tecla transformar O Bibber Tagger e a etiquetagem O Biber Tag Count O WordSmith Tools Procedimentos de análise Mapeamento das dimensões de Biber Extração de fatores para as dimensões das redações Seleção de conteúdos das atividades didáticas e critérios adotados ESTUDO PILOTO Metodologia Resultados

10 Implicações RESULTADOS Mapeamento das dimensões Mapeamento da dimensão Mapeamento da dimensão Mapeamento da dimensão Mapeamento da dimensão Mapeamento da dimensão Dimensões das redações argumentativas A fatoração das variáveis Interpretação dos fatores Dimensão 1: escrita letrada versus escrita narrativizada e oralizada Dimensão 2: escrita com foco na descrição versus escrita com foco no agir Dimensão 3: escrita com foco no pensamento e no relato Dimensão 4: escrita qualificativa Aplicação da AMD em atividades didáticas Seleção dos conteúdos para as atividades de familiarização Seleção dos conteúdos para as atividades de detalhamento Discussão dos resultados REFERÊNCIAS ANEXOS

11 17 LISTA DE FIGURAS FIGURA 3.1 Amostra de concordância no COCA: red socks FIGURA 3.2 A ferramenta Keyword in Context do COCA FIGURA 3.3 Editor de dados do SPSS FIGURA 3.4 Visualizador do SPSS FIGURA 3.5 Escore positivo FIGURA 3.6 Escore negaitvo FIGURA 3.7 Seleção de textos no WordSmith Tools FIGURA 3.8 WordList no WordSmith Tools FIGURA 3.9 Janelas do WordList no WordSmith Tools FIGURA 3.10 Settings do Concord no WordSmith Tools FIGURA 3.11 Concordâncias com md no WordSmith Tools FIGURA 5.1 Extração inicial no SPSS FIGURA 5.2 Escolha de variáveis no SPSS FIGURA 5.3 Descritivos no SPSS FIGURA 5.4 Extração no SPSS FIGURA 5.5 Diagrama de sedimentação FIGURA 5.6 Proporção máxima FIGURA 5.7 Número fixo de fatores FIGURA 5.8. Concordâncias para nn FIGURA 5.9 Colocados à direita de violence FIGURA Colocados à esquerda de violence

12 19 LISTA DE GRÁFICOS GRÁFICO 4.1 Distribuição dos países na dimensão GRÁFICO 4.2 Distribuição dos países na dimensão GRÁFICO 5.1 Redações na dimensão GRÁFICO 5.2 Dimensão 1 de Biber GRÁFICO 5.3 Redações na dimensão GRÁFICO 5.4 Dimensão 2 de Biber GRÁFICO 5.5 Redações na dimensão GRÁFICO 5.6 Dimensão 3 de Biber GRÁFICO 5.7 Redações na dimensão GRÁFICO 5.8 Dimensão 4 de Biber GRÁFICO 5.9 Redações na dimensão GRÁFICO 5.10 Dimensão 5 de Biber

13 21 LISTA DE QUADROS QUADRO 3.1 Amostra de etiquetagem do VISL QUADRO 3.2 Amostra de etiquetagem do Tree Tagger QUADRO 3.3 Amostra de etiquetagem do Biber Tagger QUADRO 3.4 Concordâncias com must QUADRO 3.5 Concordâncias com must expandidas como sentença QUADRO 3.6 Concordâncias com must expandidas como parágrafo QUADRO 4.1 Redação com escores altos para envolvimento e conteúdo informacional: Japão QUADRO 4.2 Redação com escores altos para envolvimento e conteúdo informacional: China QUADRO 5.1 Amostra de redação de aluno russo QUADRO 5.2 Amostra de redação de aluno chinês QUADRO 5.3 Redação de aluno chinês QUADRO 5.4 Redação de aluno falante nativo de inglês QUADRO 5.5 Redação de aluno da África do Sul QUADRO 5.6 Redação de aluno falante nativo de inglês QUADRO 5.7 Redação de aluno turco (1) QUADRO 5.8 Redação de aluno turco (2) QUADRO 5.9 Texto com escore mais alto no polo negativo QUADRO 5.10 Texto com escore mais alto no polo positivo QUADRO 5.11 advérbios + to infinitivo QUADRO 5.12 Amostra de redações com alto e baixo escore individual QUADRO 5.13 Amostra de redações com alto e baixo escore individual (dimensão 2) QUADRO 5.14 Redação de aluno japonês QUADRO 5.15 Redação de aluno sul-africano QUADRO 5.16 Redação de aluno alemão QUADRO 5.17 Redação de aluno sul-africano QUADRO 5.18 Atividade QUADRO 5.19 Redações e escores do BrICLE na dimensão

14 22 QUADRO 5.20 Atividade QUADRO 5.21 Atividades 3, 4 e QUADRO 5.22 Atividade QUADRO 5.23 Etiquetas para as características da dimensão QUADRO 5.24 Colocações mais frequentes acompanhando a etiqueta nom QUADRO 5.25 Lista das colocações mais frequentes de de vbd (verbos no passado) QUADRO 5.26 Lista de colocações de pn (pronomes indefinidos) QUADRO 5.27 Amostras das concordâncias (sentenças)

15 23 LISTA DE TABELAS TABELA 3.1 Subcorpora de estudo TABELA 4.1 Escores médios para a dimensão TABELA 4.2 Escores médios para a dimensão TABELA 4.3 Escores individuais das redações na dimensão TABELA 5.1 Redações do polo negativo na dimensão TABELA 5.2 Anova da dimensão 1 de Biber em relação ao ICLE TABELA 5.3 Anova da dimensão 2 de Biber em relação ao ICLE TABELA 5.4 Redações do polo negativo na dimensão TABELA 5.5 Redações do polo positivo na dimensão TABELA 5.6 Anova da dimensão 3 de Biber em relação ao ICLE TABELA 5.7 Redações do polo negativo na dimensão TABELA 5.8 Redações do polo positivo na dimensão TABELA 5.9 Redações do polo positivo na dimensão TABELA 5.10 Redações do polo negativo na dimensão TABELA 5.11 Redações do polo positivo na dimensão TABELA 5.12 Anova da dimensão 5 de Biber em relação ao ICLE TABELA 5.13 Redações do polo negativo na dimensão TABELA 5.14 Redações do polo positivo na dimensão TABELA 5.15 Amostra das variáveis da primeira extração TABELA 5.16 Segunda extração no SPSS TABELA 5.17 Escolha de variáveis para os fatores eliminados TABELA 5.18 Variáveis do fator 1 e exemplos TABELA 5.19 Variáveis do fator 2 e exemplos TABELA 5.20 Variáveis do fator 3 e exemplos TABELA 5.21 Variáveis do fator 4 e exemplos TABELA 5.22 Escore médio por origem na dimensão TABELA 5.23 Anova da dimensão TABELA 5.24 Altos escores individuais das redações TABELA 5.25 Baixos escores individuais das redações TABELA 5.26 Escore médio por origem na dimensão

16 24 TABELA 5.27 Anova da dimensão TABELA 5.28 Escores altos (dimensão 2) TABELA 5.29 Escores baixos (dimensão 2) TABELA 5.30 Redações por origem na dimensão TABELA 5.31 Anova da dimensão TABELA 5.32 Escores altos (dimensão 3) TABELA 5.33 Anova da dimensão TABELA 5.34 Escore médio por origem na dimensão TABELA 5.35 Anova da dimensão TABELA 5.36 Escores altos (dimensão 3) TABELA 5.37 Escores baixos (dimensão 3) TABELA 5.38 Redações dos alunos e escores na dimensão 1)

17 25 RESUMO Esta tese tem por objetivo verificar o modo como textos argumentativos produzidos por alunos de inglês variam e, a partir desse conhecimento, sugerir procedimentos para o desenvolvimento de atividades para material didático de inglês. A pesquisa recorre ao arcabouço teórico da Linguística de Corpus, Linguística de Corpus de Aprendiz e Análise Multidimensional. Nossos corpora de estudo foram o International Corpus of Learner English (ICLE), o Brazilian International Corpus of Learner English (BrICLE) e o Louvain Corpus of Native English Essays (LOCNESS). Na primeira fase desta pesquisa, verificamos o modo como a variação nas redações de aprendizes se distribuía nas dimensões de variação do inglês propostas por Biber (1988). Na segunda fase, identificamos as dimensões de variação específicas nas redações de aprendizes, o que resultou em 4 dimensões de variação: dimensão 1 escrita letrada versus escrita narrativizada e oralizada; dimensão 2 escrita com foco na descrição versus escrita com foco no agir; dimensão 3 escrita com foco no pensamento e no relato; e dimensão 4 escrita qualificativa. Na terceira fase, partimos das características linguísticas observadas na dimensão escrita letrada versus escrita narrativizada e oralizada para encontrar conteúdos para as atividades didáticas sobre a variação em textos. Além das atividades sugeridas, apresentamos os procedimentos necessários para utilizar resultados de pesquisas como esta para a produção de materiais didáticos para ensino de línguas. Palavras-chave: Linguística de Corpus; Linguística de Corpus de Aprendiz; Análise Multidimensional; material didático.

18 27 ABSTRACT This thesis aims to check the way how argumentative texts produced by English learners vary and, by means of this knowledge, suggest procedures for developing activities for English teaching material. The research resorts to the theoretical framework of Corpus Linguistics, Learner Corpus Linguistics, and Multidimensional Analysis. Our study corpora were the International Corpus of Learner English (ICLE), the Brazilian International Corpus of Learner English (BrICLE), and the Louvain Corpus of Native English Essays (LOCNESS). In the first phase of this research, we checked the way how variation in learner s essays was distributed along the dimensions of English variation proposed by Biber (1988). In the second phase, we identified the specific variation dimensions in leaner s essays, something which resulted in 4 dimensions of variation: dimension 1 literate writing versus narrativelike and oral-like writing; dimension 2 description-driven writing versus action-driven writing; dimension 3 writing focused on thought and report; and dimension 4 qualifying writing. In the third phase, we addressed the linguistic characteristics observed in the dimension literate writing versus narrative-like and oral-like writing to find contents for the teaching activities about variation in texts. In addition to the suggested activities, we present the procedures needed to use results from researches like this for producing language teaching materials. Keywords: Corpus Linguistics; Learner Corpus Linguistics; Multidimensional Analysis; teaching material.

19 29 INTRODUÇÃO Ao longo da história do ensino/aprendizado de línguas, muitas foram as dúvidas, as dificuldades e os problemas que surgiram e surgem à medida que se procura novos caminhos. Em alguns momentos, há preocupação quanto ao modo como alguém aprende uma língua e, em outros, em relação ao modo como se ensina uma língua, com foco na oralidade ou na escrita, entre diversos outros aspectos. Embora se possa observar a ocorrência de mudanças na metodologia de ensino, nos materiais didáticos e nos tipos de conteúdo utilizado, sempre surgem novos questionamentos e desafios com os quais os professores de línguas se deparam. Um dos problemas que persistem é a escrita do aluno de inglês. Apesar de os alunos aprenderem a escrever tipos variados de texto em inglês, eles ainda apresentam dificuldade para perceber que os diversos tipos de texto com os quais lidamos no dia a dia variam linguisticamente, dependendo das pessoas para as quais se destinam, do contexto e da situação em que são utilizados. Não se escreve ou se fala do mesmo modo o tempo todo, e, aparentemente, isso não é mostrado ou ensinado de modo claro aos estudantes, em especial estudantes de línguas estrangeiras. Esses alunos, apesar de produzir textos que, de alguma forma, variam entre si e em relação à variação do inglês, parecem não fazê-lo de modo consciente, ou seja, escolhendo as características que fazem com que um texto se mostre mais ou menos formal, mais ou menos argumentativo etc. para cumprir determinado propósito comunicativo. Em muitos casos, a variação tende a ocorrer por causa da mudança do tema, do vocabulário aprendido em certa unidade do livro didático ou porque os alunos se basearam em algum modelo de texto diferente. Nesta tese denominamos variação linguística o conjunto de diferentes características linguísticas (p. ex., adjetivos, pronomes, orações nominais etc.) que co-ocorrem em textos com registros distintos, conferindo-lhes certas funções comunicativas em determinado contexto de situação. No dia a dia dos estudantes, de idiomas ou universitários, solicita-se que escrevam textos argumentativos com diferentes propósitos. O problema é que textos argumentativos, assim como outros tipos de texto (descritivos, narrativos etc.),

20 30 podem variar linguisticamente de acordo com o propósito comunicativo e/ou o contexto de situação, como já mencionado, portanto, não há uma fórmula correta para caracterizar a argumentação, o que, consequentemente, torna o ensino da escrita de textos argumentativos uma tarefa árdua para professores e designers de material didático. Os textos argumentativos são aqueles nos quais, de algum modo, é necessário convencer alguém sob determinado ponto de vista, opinião ou posicionamento, defendendo a ideia proposta (SCHAINIUKA, 2011). Além disso, a argumentação pode combinar a narração, a descrição etc. (SCHAINIUKA, 2011), o que também afeta suas características linguísticas e, assim, a variação entre textos argumentativos. Para ilustrar como a variação linguística é comum e dependente das características linguísticas que co-ocorrem nos textos, mostram-se relevantes os resultados de Biber, Grieve e Iberri-Shea (2008), estudo no qual se constata que, ao longo dos tempos, ocorreu variação linguística nos registros do tipo reportagem de jornais e revistas, uma vez que surgiram novos estilos nas últimas décadas para proporcionar maior compactação da informação, que ocupa menor espaço. Neste estudo, os dados indicam que a nominalização, o uso de substantivos como prémodificadores, e as orações nominais são recursos linguísticos que apresentam uso mais frequente por conta dessa compactação da informação e que são típicos dos registros analisados. Nesta tese, o registro se refere a textos que apresentam características linguísticas semelhantes, co-ocorrentes, e que, em determinado contexto situacional, atendem a um propósito comunicativo. Os textos (redações) produzidos por estudantes de um idioma são analisados segundo critérios pré-determinados, como um registro, por constituírem tipos de texto que desempenham uma função comunicativa em um contexto situacional, ou seja, são produzidos por aprendizes, têm a função de expressar a posição do aluno diante do tema abordado e apresentam como contexto situacional o fato de ser produzidos como atividade de ensino para prática da escrita. O conjunto desses textos produzidos por alunos é denominado corpus de aprendiz. Como os alunos produzem textos argumentativos com frequência (no curso de inglês, na faculdade etc.), adotamos a hipótese de que há temas variados para as redações, em contextos variados, tais como diferentes países de origem, diferentes línguas maternas, alunos de universidades, alunos de institutos de idiomas etc.;

21 31 assim, pode-se encontrar variação linguística nos textos argumentativos desses alunos. A partir dessa variação linguística, perguntamo-nos se não seria possível averiguar como os textos produzidos por alunos de inglês de nível avançado variam de modo sistemático; caso essa variação seja recorrente, a questão passa a ser se não haveria um modo de ensinar essa variação que ocorre nos textos. Diante da possibilidade de encontrar uma variação sistemática nos textos, ou seja, características linguísticas específicas que compõem essa variação, seria possível utilizá-las para o desenvolvimento de atividades didáticas para aperfeiçoar a produção escrita de alunos de inglês. Acreditamos que ensinar como ocorre a variação linguística na escrita de alunos de língua possibilita ao aluno entender que há variação em textos de um mesmo registro e aprender a produzir um texto de acordo com o contexto e situação envolvidos. A Linguística de Corpus (LC) tem obtido destaque por conta do uso de tecnologias inovadoras, principalmente programas computacionais, para a análise linguística. O uso de programas computacionais possibilita a análise automática de textos e o estudo de grandes quantidades de textos de modo ágil e preciso. O conjunto de textos, coletados segundo critérios pré-estabelecidos e armazenados em formato legível por computador, é denominado corpus; a análise de um corpus proporciona acesso a padrões de uso da linguagem. Os padrões de linguagem relacionam-se ao modo como as palavras se agrupam regularmente nos textos, conferindo a esses agrupamentos determinado significado e/ou característica. Para estudar a variação nos textos produzidos por alunos de inglês, utilizamos os seguintes corpora: o International Learner Corpus (ICLE), o Brazilian International Learner Corpus (BrICLE), um corpus de alunos cuja língua nativa é o inglês (americanos e ingleses) e o Louvain Corpus of Native English Essays (LOCNESS). No âmbito da LC, a área que tem apresentado resultados com potencial para proporcionar fontes contextualizadas para o desenvolvimento de materiais didáticos para o ensino de línguas é a Linguística de Corpus de Aprendiz (LCA). A LCA lida com textos produzidos por alunos (aprendizes) de inglês para obter informações relativas às necessidades desses alunos. Os resultados de pesquisas de LCA analisam o que o aluno é capaz de fazer e o que ainda falta aprender, como, por exemplo, casos de subuso de itens lexicais ou o fato de utilizar determinadas

22 32 estruturas gramaticais em sentenças isoladas (exercícios e atividades em sala de aula), mas não em um texto (GRANGER, 1999). Um fato relevante observado na LCA é que os diversos estudos, de uma forma ou de outra, demonstram que a escrita do aprendiz de inglês não é linear: todos os alunos não escrevem do mesmo modo, sua escrita varia em termos de escolhas léxico-gramaticais, o que reforça a hipótese da existência de variação na escrita argumentativa do aluno. Afinal, sob uma visão empírica da linguagem, a variação é natural. Ainda no âmbito da LC, as pesquisas utilizam uma infinidade de metodologias distintas, uma característica da área, o que pode levar a resultados diferentes em estudos semelhantes, assim, o desenvolvimento ou a adoção de uma metodologia adequada é de suma importância. Em estudos sobre a variação entre registros, uma abordagem de destaque é a análise multidimensional (AMD), que é, segundo Biber (2004, p. 45, tradução nossa) uma abordagem de pesquisa desenvolvida para descobrir e interpretar padrões de variação linguística encontrados em um corpus de textos. Essa abordagem, proposta por Biber (1988), tem sido utilizada em diversos estudos cujo objetivo é verificar como a linguagem varia sistematicamente em textos de diferentes registros em uma mesma língua. Por suas características, a AMD mostra-se uma abordagem plenamente adequada a esta tese. A AMD é uma abordagem que tem contribuído em diversas áreas relacionadas à comunicação que visam a uma melhor compreensão da linguagem utilizada em diferentes situações e contextos. Sua principal contribuição para os estudos da linguagem, segundo Berber Sardinha (2000, p. 100), é: [...] a possibilidade de se utilizar concomitantemente uma variedade de traços linguísticos empregados na análise textual e de se aplicar a codificação desses traços a um número de textos maior do que se poderia fazer manualmente [...], por meio do emprego de computadores e técnicas estatísticas. Vários estudos que utilizam a abordagem da AMD partiram do estudo precursor de Biber (1988), que identificou as dimensões de variação do inglês: a) dimensão 1 produção marcada pelo envolvimento versus informação; b) dimensão 2 preocupações narrativas versus não narrativas; c) dimensão 3 referência explícita versus dependente de referência; d) dimensão 4 persuasão explícita; e e) dimensão 5 elaboração em tempo real.

23 33 Reppen (1994) descreveu como a linguagem nas redações de crianças da 3ª à 6ª série (de acordo com o sistema educacional americano) varia em relação à linguagem de livros didáticos e monólogos transcritos de crianças. Biber et al. (2004) apresentam um estudo dos registros falados e escritos da linguagem utilizada em universidade, como grupos de estudo, orientações, apostilas, catálogos, programa da universidade disponibilizado em seu site, entre outros, que, em geral, não são abordados em exames de proficiência de língua que avaliam se o aluno é capaz de lidar com todas as obrigações de seu dia a dia na universidade. Esse estudo demonstra que alguns dos registros não são descritos e o estudante, nativo e não nativo, raramente aprende ou tem contato com essa linguagem, o que pode dificultar o bom aproveitamento no curso. Antes do surgimento da AMD, estudos relativos à variação de registros eram realizados com base em apenas uma ou duas características linguísticas, sem associação entre um grupo de características. Muitas vezes, partia-se da função de um texto para, então, identificar algumas de suas características. Esses estudos não eram abrangentes e não correlacionavam características: examinavam a linguagem em registros variados, observavam apenas uma ou outra característica linguística ou analisavam poucos textos (BIBER, 1988). Em função dessas críticas, nas quais também acreditava, Biber (1988) desenvolveu um modo de examinar a variação linguística em diferentes registros levando em conta grande quantidade de características linguísticas e funcionais por meio de um programa de cálculos estatísticos e um programa de etiquetagem automática. Essa abordagem ficou conhecida como AMD. Vale dizer, aqui, que as características linguísticas mencionadas, também denominadas traços linguísticos (features), referem-se às classes gramaticais, lexicais e semânticas identificadas nos textos incluídos nos corpora pesquisados. Essas características constituem as variáveis analisadas na AMD. Na AMD, a variação nos textos é apresentada em dimensões. As dimensões de variação são um conjunto de características linguísticas (correlacionadas) subjacentes aos textos de um corpus que, geralmente, são responsáveis pelas funções comunicativas desses textos. Para explicitar o que são as dimensões de variação de registros, podemos compará-las às dimensões paralelas mencionadas em histórias em quadrinhos e na ficção científica. Nestas histórias, determinado personagem em uma dimensão age de uma forma e tem uma função definida.

24 34 Quando o personagem aparece em outra dimensão, ainda guarda algumas de suas características (é possível reconhecê-lo, trata-se do mesmo personagem), no entanto, como há variáveis diferentes e que se correlacionam de modo diferente agindo nessa outra dimensão, ele executa outra função. Do mesmo modo, ao olhar as dimensões de variação do inglês propostas por Biber (1988), pode-se notar que os textos de um registro, por exemplo, a conversa telefônica na dimensão 1, apresentam características linguísticas que conferem uma função comunicativa ligada à fala, porém, na dimensão 2, embora continue sendo uma conversa telefônica, as características dessa dimensão conferem uma função não narrativa. Na ficção, em universos paralelos, essas dimensões coexistem. Do mesmo modo, nas dimensões de variação, os textos podem aparecer em uma dimensão como tipicamente pertencentes à fala e em outra dimensão, devido a diferentes variáveis que se relacionam (ainda que guardando as características de outra dimensão), esses textos aparecem como não narrativos, ou seja, as diferentes realizações dos textos coexistem, um mesmo texto pode ser falado e não narrativo. As dimensões de variação da AMD, além de mostrar as várias realizações dos textos, trazem uma classificação não dicotômica desses registros. Essa classificação da AMD constituiu uma inovação em relação aos estudos de variação linguística, que apresentavam resultados classificatórios em dois polos distintos (oral ou escrito/formal ou informal). Na AMD, os resultados das pesquisas mostram como os textos ou registros de um corpus são distribuídos ao longo desses dois polos. Um exemplo estudado por Biber et al. (2004) são os textos transcritos de explicações em aulas em universidade; esses textos, embora falados, também apresentam características da escrita e, por isso, aparecem entre um polo e outro, não como unicamente falados. Ao mesmo tempo, em outra dimensão (narrativa versus não narrativa), as explicações em aula são um pouco narrativas (novamente entre um polo e outro). Considerando todas as dimensões de Biber et al. (2004), 4 no total, e que elas são padrões de medida por meio dos quais definimos algo, os textos explicativos em sala de aula apresentam-se mais ou menos conversacionais, mais ou menos narrativos, bastante dependentes da situação, um pouco persuasivos e um pouco impessoais. Por suas características abrangentes, a AMD tem sido utilizada para investigar muitos aspectos da variação linguística, não só em inglês, mas, também, em muitas outras línguas (REPPEN, 1994, p. 15), possibilitando a investigação e identificação

25 35 de padrões textuais que não eram possíveis com outras abordagens. Com a AMD, combina-se o uso de tecnologia, a análise linguística e os estudos de variação linguística, mas ainda falta um quadro conceitual com procedimentos específicos para utilizar tais estudos como fonte de conteúdo ou indicação de conteúdo para materiais didáticos para o ensino de línguas. Muitos estudos em AMD (bem como na LCA) apresentam sugestões para o uso dos resultados em materiais didáticos, alguns, inclusive, desenvolvem um material didático, como, por exemplo, o Real grammar (BIBER; CONRAD, 2009), no entanto, não há indicação de qual caminho seguir se o professor pesquisador e designer de material didático almejar aproveitar resultados de pesquisa ou realizar pesquisas por conta própria com a finalidade de obter conteúdo para produzir material didático, assim, há, aqui, uma lacuna a ser preenchida. Uma vez que nosso estudo que adota a abordagem da AMD tem relação com o ensino da escrita e almeja utilizar os resultados da pesquisa para o ensino, é necessário explicitar, ainda, o modo como é constituído o conteúdo de um material didático que se propõe a ensinar a variação nos textos argumentativos dos alunos. Em geral, para o ensino da escrita (nesse caso, em uma língua estrangeira, o inglês), o professor utiliza atividades didáticas que fazem parte de um material didático ou ele mesmo as produz. O problema é que, muitas vezes, esse material didático baseia-se na intuição ou experiência do professor ou do designer de material didático e, portanto, abrange algumas necessidades dos alunos e alguns usos da língua, mas, em muitos casos, deixa de abordar itens e conteúdos relevantes. A intuição mostra-se deficiente quanto ao uso da língua ou mesmo em relação a o que e como ensinar, como diversas pesquisas com materiais didáticos sugerem (SUCCI JR., 2003; CAMPOS, 2007; CONTRERA, 2010; SÃO BENTO FERREIRA, 2010). Assim, observa-se que há certa carência de estudos que busquem estabelecer um elo entre a pesquisa linguística e o desenvolvimento de material didático. Justificativa Esta tese mostra-se relevante, em primeiro lugar, porque, como professora, pesquisadora e designer de material didático para o ensino de línguas, constatei que compreender a variação nos textos argumentativos dos alunos contribui em minhas

26 36 práticas de ensino da escrita em inglês e no desenvolvimento de atividades didáticas. Sem compreender como os textos variam entre si, em termos de dimensões de variação, acredito não ser possível ensinar a variação ao aluno de modo abrangente e sistemático. Em segundo lugar, os estudos sobre a variação na escrita dos alunos têm sido pouco explorados, tanto sob o ponto de vista de conhecer a variação nos textos argumentativos de alunos de inglês como do aspecto da apresentação de uma metodologia para uso dos resultados de pesquisas desse tipo para o desenvolvimento de materiais didáticos para o ensino de línguas. Os principais estudos desenvolvidos com a abordagem da AMD e com corpora de aprendiz identificados foram: Pacheco de Oliveira (1997), Shimazumi (1998), Conde (2002), Van Rooy e Terblanche (2009), Asencion-Delaney e Collentine (2011) e Aguado Jimenez, Pérez-Paredes e Sánchez (2012). No entanto, nenhum deles apresenta sugestões e procedimentos para uso dos resultados da pesquisa para o ensino de línguas. Os estudos da LCA, em geral, têm por objetivo subjacente informar materiais didáticos ou material instrucional para professores de inglês, no entanto, eles têm a limitação de estudar separadamente as características linguísticas das redações produzidas por aprendizes; desse modo, não possibilitam observar a relação entre essas características ou o modo como o uso da linguagem do aprendiz varia. A abordagem da AMD possibilita lidar com ambos os objetivos. Em terceiro lugar, sob o ponto de vista social, ao aprender, conhecer e compreender como os textos argumentativos variam, o aluno de inglês torna-se mais apto a agir no mundo, no que diz respeito à comunicação escrita. Por conta da falta de procedimentos estabelecidos para utilizar pesquisas para o desenvolvimento de atividades didáticas, nesta tese almejo mostrar como obter conteúdos para elaborar atividades didáticas com base em pesquisa sobre a variação linguística. As atividades didáticas que utilizam as características linguísticas das dimensões de variação do inglês e das próprias redações visam a conscientizar o aluno de que há diferentes modos de construir uma argumentação e que essa diferença é decorrente da variação linguística. A partir dessa noção de variação, é possível aprender a lidar com ela para que seja utilizada quando e como necessário. Acreditamos que deve haver pesquisa subjacente ao design e à escolha de

27 37 conteúdos para materiais didáticos, pois estes lidam com a linguagem e a linguagem é utilizada nos textos (falados, escritos e de diversos gêneros, tipos, estilos etc.). Assim, entendemos que se deve ensinar línguas com base em conhecimento empírico. Um dos muitos modos de trazer pesquisa para a sala de aula é utilizar os resultados de pesquisas como a abordagem da AMD, que leva em consideração os diferentes registros, suas respectivas características e como essas características se correlacionam para atingir os propósitos comunicativos em questão, que constituem a necessidade básica do aprendizado de uma língua. Os resultados de um estudo como esta tese podem proporcionar pistas para selecionar conteúdos a ser trabalhados nas atividades didáticas, pois, quando um texto se apresenta em determinada dimensão, isso significa que a linguagem utilizada naquele texto apresenta grande quantidade de características linguísticas relacionadas àquela dimensão, ao mesmo tempo que apresenta falta de outras características relacionadas a outras dimensões ou a outro polo da mesma dimensão. Essas características determinantes podem ser utilizadas para ensinar um aluno a escrever um texto mais informacional, por exemplo, utilizando adjetivos atributivos, orações preposicionais e coordenadas. Para reforçar a noção de que estudos com grande quantidade de texto e análise de variação são relevantes para o ensino de língua, recorremos a Biber, Gray e Poopon (2011, p. 17, tradução nossa): A análise de corpus de grande escala é idealmente adequada à pesquisas desse tipo: um corpus fornece uma amostra muito mais representativa da língua do que aquelas tipicamente utilizadas em estudos de desenvolvimento; o uso de técnicas computacionais possibilita análise de grandes coleções de textos, fornecendo resultados que são generalizáveis em um público-alvo; e o uso de análises quantitativas permite descrever a real proporção na qual um padrão de uso é preferido em uma ou outra variedade de texto. Objetivos e perguntas de pesquisa Diante da problemática apresentada, esta tese tem por objetivos principais: a) mostrar que há variação entre os textos dos corpora estudados (ICLE, BrICLE e LOCNESS) e como ela ocorre na escrita de alunos de inglês; e b) mostrar que a

28 38 AMD de corpora de aprendizes pode fornecer resultados aplicáveis ao design de material didático para o ensino de inglês. Desse modo, combinamos a pesquisa linguística, mais especificamente a análise da variação linguística, ao uso de tecnologias (ferramentas computacionais para análise linguística) com aplicação ao desenvolvimento de materiais didáticos. De modo mais específico: a) verificamos como as redações de alunos de inglês de 18 origens 1 diferentes variam em relação às dimensões do inglês apresentadas em Biber (1988); e b) averiguamos quais são as dimensões de variação das redações desses alunos. Além disso, a partir das características linguísticas observadas nas dimensões de variação das redações, apresentamos procedimentos para a seleção de conteúdo por meio de resultados de pesquisa que possam informar atividades didáticas com base em corpus (e não na intuição). Esta tese lida com as seguintes perguntas de pesquisa: 1. Como as redações de aprendizes de inglês de 18 origens diferentes e de estudantes nativos variam em relação às dimensões do inglês descritas por Biber (1988)? 2. Quais são as dimensões de variação específicas dos corpora de aprendizes? 3. Dados os resultados obtidos na AMD dos corpora de aprendizes, como e quais conteúdos podem ser extraídos para aplicação em atividades didáticas? A maioria dos estudos em AMD apresenta resultados descritivos e indica como esses resultados podem ser utilizados. Dada a riqueza de detalhes e a especificidade quanto ao uso da linguagem neste ou naquele registro, os resultados desses estudos podem ser utilizados para informar materiais didáticos e para desenvolver programas para o ensino da escrita, a avaliação de textos etc. Além disso, ao analisar os corpora de aprendizes selecionados para este estudo, quais sejam, o ICLE, o BrICLE e o LOCNESS, temos em mãos a linguagem utilizada por aprendizes de inglês; por meio da abordagem da AMD, averiguamos os padrões de uso mais frequentes em cada variedade de texto em relação às 1. Adotamos o termo origem dos alunos porque, em alguns casos, há redações de alunos com a mesma língua materna e a mesma nacionalidade, porém, esses alunos vivem em países diferentes, portanto, não poderíamos utilizar países ou nacionalidades. As redações de alunos chineses, por

29 39 dimensões de variação estudadas e esses padrões podem indicar o conteúdo que alunos de inglês necessitam aprender para aperfeiçoar sua escrita. Resta, ainda, esclarecer que utilizamos a linguagem produzida pelo aluno (nas redações) para ensinar porque ela representa o que o aluno sabe em termos de produção de texto e aproxima-se daquilo que os demais alunos podem produzir. Além disso, como o foco deste estudo são as redações, os resultados obtidos a partir da linguagem do aluno ilustram exatamente o ponto (i. e., as características linguísticas) que devemos ensinar. No entanto, para exemplificar as características linguísticas das dimensões de variação, trabalhamos com amostras de uso da língua provenientes do Corpus of Contemporary American English (COCA). Assim, podemos desenvolver atividades didáticas que partem de algo em relação ao qual o aluno apresenta conhecimento prévio, mas que, porém, é enriquecido com padrões de uso de linguagem autêntica. Esta tese organiza-se da seguinte forma: no Capítulo 1 apresentamos sua fundamentação teórica, explicitando conceitos e características da LC, LCA, AMD, além de questões relativas ao desenvolvimento de material didático para o ensino de línguas. No Capítulo 2, relativo ao referencial teórico, apresentamos uma revisão de literatura relacionada à argumentação e ensino/aprendizado de línguas. No Capítulo 3, relativo à metodologia, apresentamos os corpora e as ferramentas computacionais utilizadas neste estudo, bem como os procedimentos necessários para sua realização. No Capítulo 4 apresentamos o estudo piloto, preliminar à pesquisa em si. Por fim, no Capítulo 5 apresentamos os resultados, divididos em três partes: uma voltada à questão do mapeamento das dimensões do inglês; outra voltada à questão das dimensões de variação das redações; e a última voltada aos procedimentos para obtenção de conteúdos para materiais didáticos por meio dos resultados da análise. exemplo, estão divididas em dois corpora: redações de alunos chineses que vivem em Hong Kong e redações de alunos chineses que vivem na Inglaterra.

30 40

31 41 1 FUNDAMENTAÇÃO TEÓRICA Esta tese foi concebida e desenvolvida a partir de pressupostos teóricos e metodológicos da Linguística de Corpus (LC), da Linguística de Corpus de Aprendiz (LCA) e da Análise Multidimensional (AMD). Além desses pressupostos teóricometodológicos relacionados à coleta, análise e interpretação dos dados, adotamos uma abordagem relativa ao desenvolvimento de materiais didáticos e ao aprendizado de línguas. Primeiro, apresentamos os pressupostos teórico-metodológicos da LC no âmbito dos estudos da linguagem e como diferentes tipos de corpora são utilizados em diferentes tipos de pesquisa, segundo os objetivos e a metodologia adotados. Discutimos conceitos fundamentais da LC, tais como: frequência, padrões de linguagem, colocação, coligação, e pacotes lexicais. Nosso foco recai sobre as discussões relativas ao uso da LC para o ensino de línguas. Em seguida, indicamos como a LCA tem contribuído para o desenvolvimento de estudos relacionados ao ensino de idiomas como língua estrangeira e segunda língua. O próximo passo é a apresentação da AMD, abordagem que revolucionou os estudos da variação linguística relativos a diversas áreas, com discussão acerca de sua importância e relação com esta tese. Por fim, discutimos quadros conceituais para a elaboração de atividades didáticas com base em abordagens voltadas ao desenvolvimento de materiais didáticos, e como essas estruturas relacionam-se com esta tese. Entre as abordagens disponíveis, optamos por discutir as seguintes estruturas: as atividades baseadas em tarefa, o aprendizado guiado pelos dados, a estrutura didática proposta por Ramos (2004) e a proposta de uso da LC de Berber Sardinha (2011). Esses quatro quadros conceituais apresentam características que possibilitam ao professor pesquisador e ao designer de material didático utilizá-las de modo combinado. Desse modo, propomos atividades que compreendem: a) as fases propostas por Ramos (2004) apresentação, detalhamento e aplicação; b) as

32 42 atividades multimídia, centradas em linhas de concordância e nos textos, propostas por Berber Sardinha (2011) A Linguística de Corpus A LC tem um longo histórico, que remonta a períodos remotos nos quais a coleta e o estudo de um corpus eram realizadas manualmente, por escrito, utilizando fichas em papel. Muita coisa mudou com o advento do computador e da internet. A pesquisa em LC também avançou e passou a contribuir com estudos voltados ao uso da linguagem em diversas áreas do conhecimento; por isso, a LC prima pela interdisciplinaridade e apresenta características ligadas ao empirismo e ao uso de ferramentas computacionais. Segundo Teubert e Krishnamurthy (2007, p. 1, tradução nossa, grifo do autor): A Linguística de Corpus é mais uma prática que uma teoria. A Linguística de Corpus é o estudo da linguagem baseado em evidências de uma grande coleção de textos passíveis de ser lidos por computador com auxílio de ferramentas eletrônicas. A Linguística de Corpus é uma nova e emergente estrutura empírica que combina um compromisso sério com métodos estatísticos rigorosos e perspectivas linguisticamente sofisticadas sobre a estrutura e o uso da linguagem. A Linguística de Corpus é um termo relativamente moderno utilizado para referir-se à uma metodologia que é baseada em exemplos de linguagem em uso da vida real. A Linguística de Corpus é uma área de pesquisa vital e inovadora. Por se prestar a tantos usos e apresentar características que proporcionam abrangência e rigor metodológico, a LC traz perspectivas cada vez mais promissoras à pesquisa linguística. Apresentaremos a seguir um breve histórico da LC, discutindo seu uso em diversas áreas dos estudos da linguagem Breve histórico da Linguística de Corpus O uso e a coleta de corpora são procedimentos antigos, que remontam aos tempos da Grécia antiga e da Idade Média (BERBER SARDINHA, 2004); no entanto, naquela época, seu foco não recaía necessariamente sobre a pesquisa em

33 43 linguagem, tudo indica que se tratava de um sistema de arquivamento e manutenção de textos, como uma biblioteca. As pesquisas em linguagem utilizando corpora só passaram a ganhar importância a partir das ideias propostas por J. R. Firth em relação à visão de linguagem. Firth foi um dos primeiros linguistas a propor que a linguagem deve ser estudada a partir de seu uso e que o contexto situacional de uso influi no significado e na pronúncia das palavras. Além disso, Firth propunha que a linguagem é o meio pelo qual as pessoas funcionam na sociedade (MONAGHAN, 1979), ou seja, que diferentes funções ocasionam um leque distinto de escolhas (de palavras, de pronúncia etc.) na linguagem. Com essas ideias, Firth influenciou um grande número de alunos, dentre eles M. A. K. Halliday e J. Sinclair. Ambos desenvolveram estudos que se baseavam na observação da linguagem em uso; Halliday partiu para a criação de uma gramática da linguagem em uso, ao passo que Sinclair decidiu estudar os padrões de linguagem formados pela observação da linguagem em corpus. Desse modo, Halliday propôs a noção de que uma língua é formada por sistemas e que esses sistemas operam ao mesmo tempo, ou seja, a língua constitui uma gramática sistêmico-funcional (MONAGHAN, 1979), enquanto Sinclair (STUBBS, 1993) propôs as noções de frequência de uso de palavras e de léxicogramática, ou seja, a gramática (padrão de linguagem) se forma a partir de escolhas lexicais e suas colocações e coligações, desenvolvendo a área de estudos que hoje denominamos LC. O ponto principal que persiste nas pesquisas atuais é que ambos os autores viam a língua como um sistema probabilístico, ou seja, um sistema no qual muitos traços linguísticos são possíveis, porém, não ocorrem com a mesma frequência e sua ocorrência não é aleatória, mas, sim, varia sistematicamente (BERBER SARDINHA, 2004), o que fez com que a ideia de inventar exemplos para estudar a língua caísse por terra, bem como a proposta de um eixo sintagmático e paradigmático que guia unicamente a estrutura e os significados de uma língua. Isso porque a compreensão de uma palavra em uma sentença ou em um texto pode ser muito mais afetada pelos colocados dessa palavra e pelo seu contexto imediato do que pela posição que ela ocupa no sintagma. As noções de padrão de linguagem, léxico-gramática e frequência de Sinclair (advindas das propostas de Firth) influenciam estudos na área de Lexicografia, no desenvolvimento de dicionários, na análise de discurso, na tradução e no ensino de línguas (STUBBS, 1993). A seguir, comentamos alguns desses estudos.

34 Estudos em outras áreas de pesquisa linguística A LC insere-se no âmbito da Linguística Aplicada, e tem ganhado cada vez mais importância e que se destaca pelo uso de grandes quantidades de textos e de ferramentas computacionais em suas análises, pela observação empírica da linguagem em uso e pela análise dos padrões formados por essa linguagem. Na LC, acredita-se que não se deve confiar na intuição de um falante, gramático ou pesquisador para compreender ou estudar a língua, é mais seguro e preciso trabalhar com evidências linguísticas. Essas evidências são as amostras de linguagem em uso obtidas por meio de um corpus. Segundo Biber, Conrad e Reppen (1998, p. 4, tradução nossa), as características essenciais de uma análise baseada em corpus são: ser empírica, analisando padrões reais de uso em textos naturais; utilizar uma grande e criteriosa coleção de textos naturais, conhecida como corpus, como base para análise; fazer uso extensivo de computadores para análise, utilizando tanto técnicas automáticas quanto interativas; necessitar de técnicas analíticas tanto quantitativas quanto qualitativas. Por conta dessas características, a LC mostra-se fundamental nos estudos da linguagem por possibilitar maior versatilidade para o desenvolvimento de uma metodologia que sustente a proposta pelo pesquisador e por proporcionar dados empíricos para análise quantitativa, principalmente relacionada à frequência de uso de itens linguísticos. Assim, a abordagem da LC é utilizada em estudos voltados à análise de discurso, da metáfora, da tradução, do ensino de línguas etc. Um grande número de estudos voltados à análise de discurso, entre eles os relacionados à gramática sistêmico-funcional, são desenvolvidos por meio da LC como metodologia de pesquisa. Nesse tipo de pesquisa, coleta-se um corpus, levanta-se a frequência de uso das palavras nesse corpus, seleciona-se os aspectos do texto a ser estudados e, a partir de linhas de concordância, interpreta-se os dados obtidos por meio de ferramentas computacionais. Santos (2011), por exemplo, propõe-se a analisar textos de jornais que fazem referência a jovens em condições de vulnerabilidade social para investigar quais são a vozes mais acessadas nesses textos. A pesquisadora utilizou um corpus com 240 textos e o programa WordSmith

35 45 Tools (SCOTT, 1997) para identificar os itens relacionados às vozes e quantificá-los. A interpretação desses dados, porém, não considera os padrões de linguagem observados nos dados, mas, sim, segue padrões e relações pré-estabelecidas na gramática sistêmico-funcional. Estudos de análise de discurso, nos quais a LC não é utilizada apenas como metodologia, mas, sim, como abordagem teórica, também têm sido realizados; porém, há uma série de problemas metodológicos e de interpretação dos dados postulados por analistas do discurso. Segundo Virtanen (2008, p. 1043, tradução nossa), a noção de contexto expandido costuma ser problemática em estudos com corpus. A noção de contexto expandido é problemática porque o analista tem uma grande quantidade de co-texto para analisar sob a forma de linhas de concordância, obtidas por meio de programas, geralmente concordanciadores, porém, alguns aspectos do contexto situacional se perdem, impossibilitando uma interpretação de dados precisa. Outro problema revelado por Virtanen (2008) é que, na análise de discurso, a maioria dos estudos que utilizam a LC é baseada na frequência, porém, na análise de discurso, nem sempre o que é mais relevante é mais frequente. Apesar das dificuldades metodológicas postuladas por um lado, por outro, o uso de corpora possibilita acesso rápido a conteúdos, palavras e colocações que se almeje analisar e que são passíveis de ser estatisticamente quantificados. Por isso, estudos com base em corpora e análise de discurso continuam sendo desenvolvidos no âmbito de quatro grandes áreas: organização do discurso e estrutura textual; aspectos pragmáticos do discurso da interação; colocações textuais e pragmáticas; e variação no discurso. Nesta última vertente, Virtanen (2008, p. 1057, tradução nossa) explica que: [...] os corpora podem ser utilizados não só para investigar a variação e, até certo ponto, a variabilidade, em um grande corpus, mas, também, para revelar dimensões de variação não previstas antes da análise. Estudos envolvendo as dimensões de variação e análise de discurso são discutidos no item 1.3.4; assim, passamos a discutir os estudos em LC e análise da metáfora. As pesquisas voltadas à investigação da metáfora beneficiam-se das ferramentas computacionais para o levantamento de padrões de uso das palavras e a posterior interpretação da metáfora, a partir da identificação dos padrões de

36 46 colocação observados nas linhas de concordância obtidas por meio do corpus. Em estudo realizado por Mestriner (2009), por exemplo, utiliza-se um corpus de pronunciamentos dos ex-presidentes George W. Bush (Estados Unidos) e Luiz Inácio Lula da Silva (Brasil) para averiguar os tipos de metáforas utilizadas por eles e como elas são expressas nos pronunciamentos. Para tanto, recorreu-se ao uso de um analisador de metáforas on-line e ao levantamento de linhas de concordância a partir das palavras identificadas com esse dispositivo para investigar quais significados os padrões de metáfora imprimiam aos textos. O mesmo tipo de estudo foi desenvolvido por Rodrigues (2007), porém, para a análise de metáforas observadas em discurso de liderança. Em relação à tradução, os pressupostos teórico-metodológicos da LC e as ferramentas computacionais possibilitaram avanço significativo nas pesquisas, pois, além de facilitar a comparação dos mesmos textos em idiomas diferentes, com os denominados corpora paralelos e comparáveis, as noções de padrão de linguagem e colocação simplificaram a compreensão e interpretação de significados, tornando o trabalho do tradutor pesquisador mais preciso. Em estudos como o de Lopes (2010), além dos resultados da pesquisa, o desenvolvimento de uma metodologia específica para a tradução contribuiu de modo decisivo para a pesquisa nessa área; Lopes (2010) investigou como a imagem do Brasil é veiculada na imprensa internacional e se havia diferenças sutis entre o texto veiculado em inglês e sua tradução para o português. Ao utilizar os preceitos da LC, Lopes (2010) foi capaz de desenvolver uma metodologia que possibilitou identificar empírica e consistentemente como certos padrões léxico-gramaticais podem formar imagens sobre algo que se lê. Perrotti-Garcia (2009) também utilizou corpora comparáveis, de artigos científicos da área médica, e constatou que médicos brasileiros empregavam a palavra em inglês submit de modo incorreto. Posteriormente, Perrotti-Garcia (2009) averiguou quais recursos lexicais são utilizados por médicos estrangeiros para se referir à palavra em português submeter, proporcionando ao tradutor (e ao professor de inglês instrumental que trabalha com médicos) um vasto leque de possibilidades quando necessita traduzir ou escrever textos dessa natureza. Um olhar atento às diversas áreas nas quais se pode recorrer ao uso da LC proporciona pistas de sua importância na investigação linguística, uma vez que a LC se presta não só a analisar e descrever a linguagem, mas, também, a obter dados que possibilitem promover mudanças de atitude, informar outras pesquisas, informar

37 47 conteúdos didáticos etc. Em pesquisas voltadas ao ensino, a abrangência da LC é ainda maior. Por conta disso, discutimos em maior profundidade as características dos estudos com esse propósito a seguir A Linguística de Corpus e o ensino de línguas Há um grande número de pesquisas voltadas ao ensino de línguas desenvolvidas por meio do aporte teórico da LC; há estudos ligados à descrição da língua, à linguagem do aprendiz, à análise e desenvolvimento de material didático, entre outras questões. Esses estudos, em geral, buscam elucidar o tipo de linguagem presente ou necessária, além de informar e analisar conteúdos de materiais didáticos, atividades complementares e visam a contribuir para aumentar a eficácia do ensino de línguas. As metodologias desenvolvidas com base na LC também mostram-se úteis para estudos exploratórios da língua e contribuem para fazer com que o aprendiz se torne um pesquisador e passe a entender o funcionamento de uma língua a partir de exemplos reais de uso e de padrões que se formam nesses exemplos. O ensino de línguas tem se beneficiado dos estudos em LC desde os primórdios dessa área, pois, por meio de um corpus, é possível descrever a linguagem em uso e selecionar conteúdos que se aproximem da linguagem com a qual o aprendiz vai se deparar ao utilizar a língua que estuda. Estudos como os de Sinclair (1996), Partington (1998), Beaugrande (2001), Biber e Reppen (2002), O Keefe, McCarthy e Carter (2007), Lüdelling e Kyttö (2008) e Biber (2009), entre muitos outros apresentam descrições de corpora que podem ser utilizados para informar materiais didáticos e sugerem meios para utilizar ferramentas computacionais no ensino, bem como atividades didáticas com base nos padrões de linguagem observados. No Brasil, as pesquisas e os trabalhos com corpora para uso no ensino também têm se desenvolvido em grande número. Jacobi (2001), Bértoli-Dutra (2002), Succi Jr. (2003), Ferreira (2004), Condi de Souza (2005), Diniz (2006), Vicentini (2006), Berber Sardinha (2010), Bissaco (2010), Viana e Tagnin (2011), Acunzo (2012) e Berber Sardinha et al. (2012) são exemplos de pesquisas que propõem atividades didáticas baseadas em corpus ou trazem descrições linguísticas para informar conteúdos de material didático para o ensino de línguas. Já Campos (2007), Contrera (2010) e São Bento Ferreira (2010) analisam

38 48 materiais didáticos para averiguar a autenticidade dos textos empregados e a exatidão das propostas. Todos esses estudos apresentam semelhanças e trazem uma série de ideias e conceitos relevantes para o desenvolvimento desta tese. Bissaco (2010), por exemplo, propõe o uso de atividades guiadas pelos dados (data driven learning) para alunos de espanhol e observa como estes aprendem por meio da interação com linhas de concordância, com o propósito de investigar o uso de falsos cognatos e perceber como, por meio do co-texto, isto é, palavras que acompanham a palavra estudada, o aluno aprende a diferenciar seus significados. A pesquisadora também constatou que, apesar de dizer-se que as atividades guiadas pelos dados devem proporcionar autonomia de aprendizado ao aluno, algum tipo de mediação na organização de ideias e na interpretação das linhas de concordâncias mostra-se necessário. Em Viana e Tagnin (2011) são apresentadas atividades didáticas com base em linhas de concordância de corpora variados e em diferentes línguas, a maioria delas com base no uso de colocações. Em Berber Sardinha (2010), o autor propõe usos variados do programa WordSmith Tools para o ensino, enquanto que em Berber Sardinha et al. (2012) os autores apresentam atividades didáticas baseadas em corpus, porém, com o uso de tecnologias e mídias variadas, tais como: vídeos no YouTube, podcast, músicas, séries de TV e jogos eletrônicos. Além dos estudos desenvolvidos para o uso pedagógico de corpora, deve-se distinguir a aplicação direta e indireta de corpora no ensino, pois nossa proposta de atividade, ao final deste estudo, envolve uso direto e indireto, porém, visando a preparar o aluno para aprender a pesquisar a língua de modo autônomo, como na aplicação direta de corpora no ensino. A aplicação indireta de corpora no ensino tem a ver com a investigação da linguagem com ferramentas computacionais disponíveis para selecionar conteúdos e fornecer ao aluno conteúdos e atividades com base nessa informação ou, como explica Römer (2008, p. 113, tradução nossa): corpora podem ajudar nas decisões sobre o que ensinar e quando ensinar. O uso indireto, via de regra, é o mais aplicado ao ensino. Neste estudo, na maior parte das atividades sugeridas, fazemos uso indireto de corpora, no entanto, algumas atividades envolvem o uso direto de corpora, que é explicado a seguir. Atividades com linhas de concordância para que o aluno as examine e identifique o padrão de uso em questão têm por objetivo despertar a consciência

39 49 linguística do aluno para a noção de padronização da linguagem. Essa aplicação de corpora está relacionada ao uso direto de corpora no ensino. Na aplicação direta há duas formas de trabalhar: na primeira, os alunos examinam o corpus por meio das linhas de concordância e da lista de frequência das palavras e vão, aos poucos, descobrindo aspectos da língua que lhes interessam; na segunda, o professor seleciona palavras de busca, colocações e concordâncias para que o aluno investigue essa seleção em particular (RÖMER, 2008). A vantagem do primeiro tipo de aplicação é que o aluno explorará a língua e utilizará sua curiosidade, o que pode ser motivador (KETTEMANN, 1995). A desvantagem é que o aluno pode não conseguir identificar padrões ou encontrar sentido na atividade e o professor não tem controle sobre os caminhos escolhidos pelo aluno para auxiliá-lo. No segundo tipo de aplicação, o professor pode auxiliar seus alunos com maior facilidade na interpretação dos padrões apresentados nas concordâncias, no entanto, a motivação e a investigação movidas pela curiosidade do aluno podem ser comprometidas pela pré-determinação do que vai ser estudado (SINCLAIR, 2007). Nesta tese, almejamos que as atividades tenham como ponto de partida os resultados obtidos no estudo da variação linguística nas redações dos alunos, o que indica, de antemão, os conteúdos necessários a ser estudados, portanto, as atividades guiadas pelos dados situam-se no segundo tipo de aplicação direta. É necessário, ainda, esclarecer outras vantagens do trabalho com corpora em sala de aula. Ao basear as atividades propostas nos resultados de uma pesquisa com corpora, fazemos com que as escolhas de conteúdo apresentem itens linguísticos (palavras, expressões, estruturas frasais) relevantes para o aluno, isto é, aqueles que o aluno apresenta maior necessidade de utilizar ou aprender. O uso de linguagem autêntica e com foco nas necessidades do aluno torna o aprendizado mais significativo e proporciona informação mais confiável acerca da linguagem em uso. Afirmamos, aqui, que o foco das atividades são as necessidades do aluno porque, ao estudarmos um corpus de aprendiz, identificamos o que o aluno é capaz de fazer com o que já aprendeu, mas, também, aquilo que ele ainda necessita aprender. Uma vez apresentadas as vantagens da abordagem da LC para o ensino de línguas, indicamos a seguir o que é um corpus, quais são suas características e quais são os tipos de corpora utilizados em pesquisas.

40 Corpus: definição, característica e tipos A LC propõe-se a estudar a linguagem em uso a partir de um corpus, isto é, um conjunto de textos considerados autênticos, legíveis por computador e coletados segundo critérios baseados no tipo de pesquisa que se almeja realizar. Por isso, há diversos tipos diferentes de corpus: Corpus especializado: formado por textos de um mesmo tipo, como, por exemplo, editoriais, entrevistas, resenhas e resumos. Esse tipo de corpus é utilizado, em geral, para analisar como um tipo de texto se caracteriza e quais são seus padrões de linguagem. Corpus geral: formado por textos de diversos tipos para representar determinada língua. Ele é utilizado, principalmente, como parâmetro para estudos nos quais é necessário obter palavras-chave, como aqueles nos quais se utiliza corpora especializados ou de aprendiz e, também, estudos nos quais se almeja descrever uma língua, como no caso da AMD. Corpus de aprendiz: formado por textos produzidos por aprendizes de uma língua e utilizados em estudos que visam a analisar como um aprendiz utiliza a língua que aprendeu ou está aprendendo, informar materiais didáticos etc. Estudos realizados com corpora de aprendiz também costumam utilizar um corpus de textos produzidos por falantes nativos da língua em questão, como referência. Corpus comparável: formado por corpora de línguas diferentes ou variedades diferentes de uma mesma língua, contendo textos alinhados do mesmo tipo em ambas as línguas ou variedades, e são utilizados para compará-las (HUNSTON, 2002, p. 15). Corpus paralelo: formado pelos mesmos tipos de texto, porém, em duas línguas (ou mais) diferentes, sendo uma a língua na qual o texto foi escrito originalmente e a outra sua tradução. São muito utilizados em estudos e trabalhos ligados à tradução. Corpus monitor: formado por grandes quantidades de texto e atualizado com frequência, para possibilitar a investigação de mudanças na língua, como, por exemplo, neologismos e também pode constituir um corpus de referência, dependendo do tipo de pesquisa. O corpus monitor mais

41 51 conhecido é o Bank of English, que, atualmente, conta com mais de 650 milhões de palavras. Diferentes tipos de corpora se prestam a diferentes tipos de pesquisa (HUNSTON, 2002; BERBER SARDINHA, 2004). Nesta tese, utilizamos corpora de aprendizes dos projetos International Corpus of Learner English (ICLE), Brazilian International Corpus of Learner English (BrICLE) e um corpus de estudantes nativos da língua inglesa chamado LOCNESS, além do Corpus of Contemporary American English (COCA), utilizado como referência no levantamento de concordâncias e exemplos para as atividades didáticas apresentadas. O ICLE e o BrICLE são corpora de aprendizes per se, criteriosamente coletados para representar a linguagem escrita em redações argumentativas de aprendizes avançados de inglês como segunda língua. O LOCNESS é um corpus de redações de falantes nativos desenvolvido para ser comparável ao ICLE e facilitar o desenvolvimento de estudos com esses corpora. Os três corpora mencionados são utilizados nesta pesquisa como corpora de estudo, pois são analisados para identificar as diferentes dimensões de variação da escrita do aluno de inglês e averiguar como a escrita do aluno de inglês varia em comparação com as dimensões de diversos registros do inglês (BIBER, 1988). Justamente por ser corpora de aprendizes, eles proporcionam informação sobre as características linguísticas observadas na escrita do aluno, o que possibilitou a formulação de atividades que complementem o conhecimento do aluno para que ele possa variar seu estilo de escrita de acordo com sua necessidade. Embora existam outros corpora de aprendizes, como o Louvain International Database of Spoken English Interlanguage (LINDSEI), o Longman Learners Corpus, o Cambridge Leaner Corpus, apenas para mencionar alguns, optamos por trabalhar com o ICLE por ser um dos pioneiros para a pesquisa da linguagem de aprendizes, por seus critérios de coleta e por abordar a escrita argumentativa de alunos de inglês, foco de nosso estudo. Além disso, a escrita de alunos brasileiros, que muito nos interessa nesta tese, é abordada nos moldes do ICLE. O BrICLE ainda se encontra separado do ICLE, por não haver atingido o número mínimo de 200 mil palavras, no entanto, vem sendo coletado de acordo com o proposto no ICLE e é utilizado nesta pesquisa junto com o ICLE. O COCA é um corpus geral de língua inglesa de grande porte, muito utilizado

42 52 como referência tanto para a comparação com corpora especializados como para comparação com a linguagem produzida por aprendizes de língua inglesa. Nesta pesquisa, adotamos o COCA por ser atualizado com frequência e disponibilizar ferramentas de busca no próprio site no qual o corpus é disponibilizado, o que facilita o trabalho do pesquisador. Outra razão para trabalhar com o COCA é o fato de ser disponibilizado on-line e de modo gratuito. Ao apresentar procedimentos para desenvolver atividades didáticas a partir de resultados de pesquisas com corpora, almejamos, ao mesmo tempo, contribuir para a popularização do uso de corpora em sala de aula, o que é favorecido pela existência de corpora gratuitos e on-line. Ainda no caso de corpora de referência de inglês, há um grande número de outros corpora utilizados em pesquisa linguística, tais como: o British National Corpus (BNC), utilizado por Delegá-Lúcio (2006) como corpus de referência em seu estudo sobre o sobreuso e relexicalização de adjetivos nas redações de alunos de inglês; o American National Corpus (ANC); o Bank of English; o Brown Corpus; o International Corpus of English (ICE); o Longman Corpus, entre muitos outros. Xiao (2008) apresenta referências completas dos corpora então existentes; o autor faz um levantamento de todos os corpora nacionais, corpora de aprendizes, corpora etiquetados, corpora de fala, corpora sincrônicos e diacrônicos etc., descreve-os e indica os endereços dos sites onde são disponibilizados. Após discutir os tipos de corpora existentes e quais utilizamos nesta tese, apresentamos a seguir definições e características de alguns dos termos cruciais para a pesquisa em LC e LCA Padrão, colocação, coligação e as concordâncias Na LC, procura-se observar empiricamente como a língua em uso forma determinados padrões. Os padrões de linguagem são, segundo Berber Sardinha (2005, p. 216), associações regulares entre itens lexicais, categorias gramaticais, semânticas ou pragmáticas, observadas num corpus. Falamos em associações regulares entre itens lexicais (verbos, substantivos, adjetivos etc.) porque se os itens que aparecem juntos não o fazem com regularidade e frequência comprovada, não se pode falar em padrão. A noção de padrão de linguagem é central nos estudos baseados em corpora, pois é pela observação dos padrões que se formam nos textos analisados que o pesquisador tira suas conclusões e obtém os resultados. No

43 53 caso de professores pesquisadores e designers de material didático, observa-se os padrões de linguagem formados em textos cujo conteúdo pode ser ensinado e investiga-se como e quando esses padrões devem ser ensinados e quais significados eles imprimem ao texto. Os padrões podem ser observados, principalmente, em linhas de concordância que mostram as colocações, as coligações e os pacotes lexicais (dependendo do tipo de busca, do programa e da ferramenta utilizada). Para Wynne (2008, p. 706, tradução nossa), as concordâncias são uma lista de ocorrências de uma palavra, apresentadas uma por linha e com seu contexto imediato. Assim, as concordâncias apresentam-se sob a forma de sentenças, não necessariamente com início e fim, onde encontramos alinhadas uma abaixo da outra a(s) palavra(s) de busca (aquela(s) que estamos analisando) e, por conta dessa organização, possibilitam observar quais palavras ocorrem próximo à(s) palavra(s) de busca, como na amostra abaixo, na qual buscamos a colocação good job: N Concordance 1 University is necessary to get a good job now a days. The job 2 ing a university degree to get a good job and to beat other c 3 university does not guarantee a good job with a good salary, 4 ys it is coming harder to find a good job. There are lots of 5 he university will garante you a good job or a successful car As concordâncias eram utilizadas na pesquisa linguística mesmo antes do advento do computador e mostram-se tão relevantes para o ensino que Willis (1998) propõe o uso didático delas com quadro negro e giz em localidades onde não é possível fazê-lo com um computador. É por meio das concordâncias que os pesquisadores encontram informação para confirmar ou refutar algumas de suas hipóteses sobre a língua ou sobre a metodologia que escolheram empregar em uma pesquisa (WYNNE, 2008). Em nosso trabalho, as concordâncias são utilizadas em atividades de aplicação com corpus para selecionar conteúdos que representem diferenças ou semelhanças entre textos e para que o aluno aperfeiçoe sua escrita. Ao interpretar concordâncias, encontramos padrões de uso que podem ser colocacionais ou coligacionais. As colocações e coligações, grosso modo e de forma geral, são agrupamentos de palavras que co-ocorrem em uma sentença e que formam padrões de uso, normalmente estudados a partir de suas frequências.

44 54 A colocação é definida por Hunston (2002, p. 68) como uma tendência das palavras serem parciais no modo como co-ocorrem. Em geral, a colocação é formada por palavras lexicais, tais como, adjetivos, substantivos, verbos etc. Há muitas co-ocorrências de palavras que podem ser consideradas colocações, no entanto, para conferir maior exatidão a uma pesquisa, é necessário utilizar medidas estatísticas para atestar a força de ligação entre dois colocados. As coligações também são formadas por palavras que co-ocorrem, no entanto, são distintas das colocações por ser constituídas pela combinação entre palavras lexicais e palavras gramaticais, como, por exemplo, depend on, coligação formada por um verbo e uma preposição. Padrões de co-ocorrência também podem ser observados em grande quantidade e correlacionados por meio de fatoração (e posterior interpretação em dimensões) obtida na AMD, possibilitando observar como esses padrões de coocorrência, formados por determinadas características linguísticas, estão presentes ou ausentes, dependendo do tipo de texto. A seguir, discutimos as características da LCA e sua relação com esta pesquisa A Linguística de Corpus de Aprendiz A LCA desenvolveu-se como subárea da LC, pois, assim como na LC, utiliza programas para análises linguísticas e grandes quantidades de textos autênticos, porém, produzidos por aprendizes de uma língua (nesta pesquisa, o inglês), reunidas nos denominados corpora de aprendiz. Como na LC, a LCA prima pela observação de padrões de linguagem, principalmente de modo comparado, utilizando corpora com textos produzidos por falantes nativos da língua em questão. Os estudos em LCA desenvolveram-se, principalmente, a partir dos estudos realizados na Universidade de Louvain, na Bélgica, por Granger (1998); em uma compilação de artigos, a autora versa sobre a importância da LCA e da investigação com corpora de aprendizes nos estudos de ensino de língua estrangeira. Estudos anteriores sobre a linguagem produzida por alunos tinham como foco principal a análise de erros e a investigação dos processos de pensamento envolvidos no aprendizado de uma língua. Embora esse tipo de pesquisa tenha proporcionado descobertas significativas para o ensino de línguas, por analisar pequena quantidade de textos, os pesquisadores, na maioria das vezes, não

45 55 conseguiam perceber se o aprendiz evitava utilizar alguns itens lexicais ou estruturas gramaticais ou se ele utilizava excessivamente algumas palavras (o que é denominado em LC sobreuso), por exemplo. A principal característica dos estudos em LCA é justamente o fato de que, por meio da comparação com corpora de referência e análise simultânea de grande quantidade de textos produzidos por aprendizes, o pesquisador pode observar quando a linguagem do aprendiz apresenta sobreuso, subuso ou evita o uso de determinados itens de uma língua. Além disso, pela coleta de corpus criteriosa imposta pela LCA, também é possível averiguar como os textos escritos por aprendizes variam, utilizando a AMD. A abordagem da LCA também abre espaço para estudos dos erros de interlíngua. Esses estudos comparativos são denominados por Granger análise contrastiva da interlíngua (ACI), que, segundo Tono (2003, p. 801, tradução nossa): É a abordagem pela qual ela quer dizer que uma comparação pode ser feita entre falantes nativos e não nativos, bem como entre aprendizes falantes de diferentes primeiras línguas e conhecimentos de mundo para identificar as características comuns a todos os aprendizes e as que são exclusivas de aprendizes de determinada primeira língua. Isso possibilitará distinguir erros universais de erros específicos de determinada primeira língua. Assim, há muitos estudos que atestam a acurácia e relevância dos resultados obtidos na LCA, tais como Lorenz (1999), que demonstrou que o aprendiz alemão de inglês sobreusa ou utiliza de modo equivocado alguns intensificadores de adjetivos, aparentemente, por desconhecer a gama de intensificadores à sua disposição em inglês. Já Granger (1999) descobriu que os aprendizes sabem utilizar a estrutura correta dos tempos verbais, porém, têm dificuldade para adequar seu uso de modo coerente em um texto, sendo o presente perfeito da língua inglesa o tempo verbal no qual apresentam maior dificuldade. Meunier (2002) avaliou a influência da pesquisa com corpora de aprendiz e de falantes nativos no ensino de inglês como segunda língua, observando que somente pesquisas com corpora de falantes nativos têm influenciado a descrição da gramática, no entanto, tanto corpora de falantes nativos como de aprendiz têm sido utilizados no ensino. Esses estudos têm contribuído para o desenvolvimento do ensino de segunda língua, informando materiais didáticos e influenciando a seleção de conteúdos a ser ensinados. No Brasil, Ferreira (2004), Delegá-Lúcio (2006) e Veirano-Pinto (2008)

46 56 estudaram a linguagem de alunos de inglês de nível avançado utilizando o BrICLE (corpus de redações coletado nos moldes do ICLE). Ferreira (2004) descobriu que os alunos brasileiros apresentam dificuldade para lidar e utilizar verbos deslexicalizados do inglês, como, por exemplo, to get, to take e to give. Delegá-Lúcio (2006) demonstrou que os alunos sobreusam os adjetivos centrais e gerais, como, por exemplo, good, important e different, e sugeriu colocações para relexicalizar esses adjetivos. Veirano-Pinto (2008) discute o uso que os alunos brasileiros fazem das palavras things, thing, anything, something e everything e como eles mostram-se aparentemente incapazes de utilizar essas palavras nas colocações nas quais são utilizadas de fato. Esses estudos investigaram diferentes características linguísticas e destacaram alguns dos usos da linguagem apresentados por estudantes de inglês de nível avançado. Embora conduzidos de modo criterioso, seu escopo limitou-se a poucas características linguísticas diferentes, não sendo possível investigar o texto como um todo com vistas a averiguar a variação, o que é possível por meio da AMD, como desenvolvemos nesta pesquisa. Há estudos em LCA que utilizaram a abordagem da AMD, como Pacheco de Oliveira (1997), Conde (2002), Jarvis et al. (2003), Van Rooy e Terblanche (2009) e Aguado-Jiménez, Pérez-Paredes e Sánchez (2012). A seguir, indicamos as características metodológicas, a importância e a influência da AMD em pesquisas linguísticas A Análise Multidimensional Breve histórico A abordagem da LC que considera os padrões de linguagem observados em um corpus como evidência da língua em uso é parte integrante e intrínseca do desenvolvimento da AMD. Isso porque foi por meio de estudos dos padrões linguísticos (BIBER, 1986) observados nos diferentes registros investigados que despertaram o interesse em encontrar uma forma de analisar a relação entre as características linguísticas de um texto para mostrar como elas variam. Aliando o aporte teórico da LC e ferramentas computacionais para análise estatística, como o Statistical Package for the Social Sciences (SPSS), Biber desenvolveu uma metodologia para utilizar a análise fatorial, já conhecida na área

47 57 da Estatística, para análises linguísticas. Em análises estatísticas do tipo proposto por Biber, o pesquisador busca a relação entre as variáveis de sua pesquisa para obter fatores, posteriormente interpretados em dimensões, que mostram essa relação. O autor, que já conhecia ferramentas estatísticas por conta de sua formação inicial em Geofísica, sabia que era possível encontrar a relação entre variáveis por meio de ferramentas estatísticas e descobriu que poderia considerar variáveis em sua pesquisa as contagens (frequência) de traços linguísticos obtidos por meio da etiquetagem de corpora. Então, utilizando as variáveis linguísticas na fatoração por meio de uma ferramenta estatística, obteve os fatores nas quais as características linguísticas relacionavam-se entre si dentro do texto e em diferentes registros. Desse modo, Biber criou uma metodologia que possibilita relacionar e analisar vários traços linguísticos de vários registros em um corpus de uma só vez, a denominada AMD; antes dessa abordagem, a variação era estudada em diversos textos partindo de poucos traços linguísticos, ou vários traços linguísticos em poucos textos (HALLIDAY, 1991). Por permitir a análise de variação utilizando grande número de variáveis e registros, a AMD tem sido considerada uma metodologia eficaz e inovadora para análise linguística. Com essa abordagem, Biber (1988) investigou a variação no inglês confrontando textos dos mais variados registros (desde conversas telefônicas a entrevistas políticas, de livros didáticos e artigos acadêmicos a concursos de rádio e TV), para delinear as características linguísticas típicas de cada registro, obtendo uma descrição abrangente do inglês e esclarecendo como os vários registros da língua inglesa variam de acordo com 6 dimensões por ele inicialmente propostas. Essas 6 dimensões foram denominadas, a partir da interpretação dos fatores observados, da seguinte forma: Dimensão 1: Produção com interação versus produção informacional. Dimensão 2: Preocupações narrativas versus não narrativas. Dimensão 3: Referências explícitas versus dependentes do contexto. Dimensão 4: Expressão explícita de persuasão versus não explícita. Dimensão 5: Informação abstrata versus não abstrata. Dimensão 6: Elaboração informacional em tempo real. Essas dimensões de variação propostas por Biber (1988), que, posteriormente, passaram a ser apenas 5 dimensões, têm servido como base para o mapeamento

48 58 de outros registros e em outras línguas em diversos estudos no mundo inteiro, assim como nesta tese. Utilizando a mesma abordagem, Biber (2006) estudou a variação linguística em diferentes registros (variação na linguagem de professores e alunos na universidade; variação na linguagem da universidade) e propôs grande quantidade de interpretações e explicações que vêm sendo utilizadas como parâmetro para novas interpretações e diferentes estudos. A AMD, além de caracterizar-se como uma abordagem muito específica e detalhada, utiliza termos próprios, tais como: características linguísticas; etiquetagem; fator; análise fatorial; e dimensão de variação. Para elucidar os termos utilizados na AMD, apresentamos algumas definições a seguir Definições específicas A AMD é uma abordagem de pesquisa significativamente complexa, por isso, a compreensão de seus termos específicos mostra-se extremamente útil. Iniciemos, então, pelo termo-chave da abordagem, isto é, a dimensão de variação. Segundo Berber Sardinha (2000, p. 108), uma dimensão de variação é: [...] um conjunto de traços que subjazem a um corpus. Dimensão é o status que um fator assume assim que ele é interpretado do ponto de vista de sua função comunicativa. Uma dimensão permite visualizar características em comum partilhadas por uma porção significativa dos dados. Em outras palavras, a dimensão é a junção de todas as características linguísticas presentes nos registros (textos) de um corpus que possibilitam que esses registros desempenhem determinada função comunicativa, além de mostrar como os textos de vários registros diferem, assemelham-se e/ou variam em relação a outros. Ainda em relação à dimensão de variação, Biber (1988, p. 13, tradução nossa) afirma que: Uma dimensão linguística é determinada pela co-ocorrência de padrões entre as características. O que significa dizer que quando um grupo de características co-ocorrem constantemente nos textos, essas características definem uma dimensão linguística.

49 59 Assim, Biber (1988) indica que essas características não co-ocorrem nos textos ao acaso, a essa co-ocorrência subjaz a função comunicativa dos textos, o modo como comunicam algo. Isso sugere que, em estudos da linguagem, não há coincidências, mas, sim, evidências, e essas evidências são sistemáticas: as dimensões mostram as medidas linguísticas dos textos, o que os textos contêm que os leva servir a um propósito. Bértoli-Dutra (2010) corrobora a noção de que as características linguísticas não co-ocorrem no texto arbitrariamente. Observa-se variação nas escolhas dos falantes e os falantes utilizam essas possibilidades de variação (diferentes características linguísticas) para dizer as mesmas coisas, dependendo de seu propósito e da função comunicativa. Bértoli-Dutra (2010, p. 5) afirma que uma descrição de registro deve admitir vários níveis de análise, isto é, diferentes dimensões. Pode-se dizer que as dimensões de variação não são dicotômicas (BERBER SARDINHA, 2000), ou seja, elas não classificam os textos apenas como de um tipo ou de outro. A noção de dimensão possibilita que textos de diferentes registros sejam classificados ao longo de seus polos, portanto, se uma dimensão é interpretada como informacional de um lado e descritiva de outro, teríamos textos muito informacionais, menos informacionais, pouco informacionais e textos pouco descritivos, mais descritivos e muito descritivos, por exemplo. Esses mesmo textos, por sua vez, poderiam, ao mesmo tempo, ser mais persuasivos, menos persuasivos, pouco persuasivos, e assim por diante. As dimensões de variação são interpretadas qualitativamente a partir dos fatores que encontramos em um corpus. Portanto, outro termo relevante é o fator. Um fator é um grupo de características linguísticas correlacionadas por meio de sua frequência (ou falta de frequência) nos textos de um corpus e que compartilham uma função comunicativa. É a partir do fator que o linguista interpreta a dimensão de variação. Ao encontrar um fator, temos em mãos o grupo de características linguísticas que o compõe e que lhe são típicas, junto com a informação estatística que possibilita averiguar como as características se distribuem, ou seja, como elas se encontram dispostas ao longo dos polos (positivo e negativo). O fator é obtido a partir de uma análise fatorial. A análise fatorial utiliza contagem de frequência das características linguísticas

50 60 para identificar os grupos de características que co-ocorrem em textos (BIBER, 1988), e seu uso é muito comum em pesquisas estatísticas nas quais se trabalha com uma ampla gama de parâmetros, nas quais é necessário identificar como esses parâmetros se relacionam. Isso porque, na análise fatorial, criam-se grupos de variáveis que facilitam a compreensão conceitual da relação entre eles, o que não seria possível com medições individuais. Ao realizar a fatoração, também eliminamos as variáveis (diferentes características linguísticas) que não conferem variação ao texto por estar presentes em todos eles ou por não apresentar uma correlação significativa com as demais variáveis. Os grupos de variáveis referidos na AMD são formados pelas características linguísticas dos textos (também denominados traços linguísticos). As características linguísticas são as classes morfossintáticas das palavras que constituem os registros de um corpus. Elas são fundamentais para a AMD porque sua presença, não presença ou sua ausência mediante a presença de outras características são determinantes na classificação de um texto em uma dimensão de variação, demonstrando a função comunicativa e situacional do(s) registros(s). Nesta pesquisa, as características linguísticas são marcadas (e contadas) por um programa de etiquetagem, o Biber Tagger, desenvolvido por Biber, que coloca ao lado de cada palavra uma etiqueta, ou seja, uma sigla que indica a classificação morfossintática da palavra. Após classificadas as palavras, suas frequências são contadas e computadas sob a forma de variáveis para uso em programa estatístico. Esse cômputo é realizado pelo programa Biber Tag Count, também desenvolvido para essa finalidade. As características linguísticas são estudas nos textos advindos de determinados registros e tipos de textos coletados que formam um corpus. Registro é utilizado em AMD, segundo BIBER (2009, p. 823, tradução nossa), como: [...] um termo guarda-chuva para qualquer variedade de linguagem definida por suas características situacionais, incluindo o propósito do falante, a relação entre falante e interlocutor, e as circunstâncias de produção. Desse modo, nesta tese, um registro é entendido como textos que compartilham o mesmo aspecto situacional, a mesma função comunicativa e as mesmas características linguísticas. Considerando os corpora selecionados para esta

51 61 pesquisa, as redações de alunos de inglês podem ser denominadas registros porque apresentam aspectos situacionais (aprendizes de inglês como segunda língua) e funções comunicativas (argumentação e exposição de ideias) comuns. A seguir, elencamos algumas das características da AMD Características da Análise Multidimensional A AMD caracteriza-se, principalmente, pelo uso de grandes quantidades de registros, grande número de variáveis de análise, ferramentas estatísticas para aferir a relação entre as variáveis e alto grau de interpretação qualitativa dos resultados. A análise da variação linguística foi definida por Hunston (2002, p.159, tradução nossa) como: [...] essencialmente, o estudo de comparações entre discursos produzidos em diferentes épocas, ou para diferentes propósitos, ou por diferentes grupos de pessoas, ou sob condições diferentes. Hunston (2002) fala em comparação porque na AMD a variação é verificada por meio da relação e existência de determinadas características linguísticas em determinados registros (ou discursos) em detrimento de outras, o que só pode ser realizado comparativamente, caso contrário, não encontraríamos variação, ou encontraríamos variação, mas sem um parâmetro. Nesta pesquisa, recorremos à comparação entre textos produzidos por diferentes grupos de pessoas, uma vez que os registros investigados apresentam o mesmo propósito; as redações analisadas são argumentativas e foram escritas para ser lidas, com o objetivo de convencer o leitor acerca de seu ponto de vista ou opinião. A AMD tem por princípios básicos: o fato de preocupar-se em estudar textos, registros e tipos de texto inteiros ao invés de características linguísticas individuais; a hipótese de que os tipos de textos diferem entre si linguística e funcionalmente; o fato de ser multidimensional, porque acredita que parâmetros múltiplos de variação operam em qualquer domínio do discurso; e o fato de que a co-ocorrência de padrões de linguagem que definem cada dimensão é identificada empiricamente por meio de técnicas estatísticas multivariadas (BIBER, 2001). O estudo de textos, registros e tipos de texto com todas as suas características, em vez de características linguísticas individuais, faz com que a

52 62 investigação seja mais abrangente, pois possibilita observar as relações entre as características linguísticas desses textos e o modo como essas relações conferem a eles determinada função em certa situação. Além disso, segundo Berber Sardinha (2000, p. 103), ela é multidimensional, ao reconhecer que a variação entre textos e registros pode ser mais adequadamente descrita por meio de múltiplos parâmetros. A AMD utiliza a força de técnicas estatísticas multivariadas para investigar a distribuição quantitativa de características linguísticas nos textos e variedades de textos (BIBER, 1988, p. 45). A aplicação dessa técnica tem se mostrado eficaz para entender como diferentes tipos de textos são formados por diferentes co-ocorrências de padrões de linguagem. A técnica de se examinar vários padrões de co-ocorrência ao mesmo tempo e em vários textos, registros ou tipos de textos também possibilita rebater críticas a estudos da variação que consideravam poucas características ou poucos textos, não possibilitando averiguar como a variação ocorria nos textos como um todo nem compará-los sistematicamente. Para realizar uma análise como a articulada aqui, primeiro, é necessário coletar um corpus e etiquetar os textos em estudo para extrair as frequências de uso de suas características linguísticas. A seguir, utilizando um programa de cálculo estatístico (nesse estudo, utilizamos o IBM SPSS, versão 20), o pesquisador deve normalizar as contagens de características linguísticas para fatorar os dados de frequência e obter os fatores que serão interpretados em dimensões e que, então, permitirão ao pesquisador averiguar como os textos variam ao longo das dimensões. Embora essa metodologia apresente diversas vantagens em relação a estudos anteriores sobre a variação linguística, inclusive o uso de ferramentas computacionais (etiquetagem e cálculos estatísticos) para análise automática dos textos, a maior dificuldade encontrada no uso dessa abordagem acaba sendo a interpretação dos fatores em uma dimensão, uma vez que essa interpretação precisa ser qualitativa e baseada em outros estudos que abordem a função de uma ou outra característica em um registro. Portanto, é a partir do exame das características de cada dimensão que o pesquisador vai nomeá-la. Assim, se os textos em estudo apresentam alta frequência de uso do tempo (verbal) passado e presente, bem como alta incidência de pronomes pessoais, pode-se dizer, com base em estudos anteriores, que os textos parecem ser tipicamente narrativos, definindo essa dimensão como narrativa. Nesta pesquisa, baseamos nossa interpretação dos

53 63 fatores nos trabalhos de Biber (1988), Biber e Conrad (2001), Biber et al. (2004), Biber (2006), Bértoli-Dutra (2010), Biber e Poonpon (2011), Condi de Souza (2012) e na gramática produzida por Biber et al. (1999). Estudos sobre a variação linguística têm sido realizados com mais frequência nas duas últimas décadas, tanto para o desenvolvimento de tecnologias e programas computacionais que contribuem para o trabalho do analista, quanto devido à sua relevância para a determinação de características típicas de registros da língua e para entender como essas características se relacionam no texto. Uma área onde pesquisas em AMD têm sido muito requisitadas é o ensino de línguas; a AMD tem contribuído, principalmente, para descrever e demonstrar como os textos variam e precisam ser ensinados ou conhecidos pelos estudantes para que obtenham sucesso acadêmico. Apresentamos a seguir alguns dos estudos sobre o ensino de línguas realizados com utilização da AMD AMD e as pesquisas no ensino A pesquisa linguística para o ensino, principalmente ensino/aprendizado de línguas, é contínua e necessária. Por isso, há uma ampla gama de abordagens de pesquisa e de coleta de dados. Em algumas áreas, eram utilizados questionários, gravação e transcrição de aulas, e assim por diante. Nesses estudos, a análise, em muitos casos, é realizada manualmente e a interpretação dos dados tem como base teorias linguísticas e educacionais. Na LC, utilizamos grandes quantidades de textos advindos de material didático, folhetos de escola, palestras, produção oral ou escrita de alunos, entre outras fontes, digitalizados e passíveis de ser lidos por programas computacionais. A seleção de conteúdo para análise em LC é, na maioria, das vezes automatizada e realizada por meio de computador. A interpretação dos dados, no entanto, é qualitativa e, em geral, baseia-se nos padrões de linguagem que são informados pelos textos e, como nos demais tipos de pesquisa, os critérios são derivados da teoria de ensino adotada no estudo. Na AMD também se trabalha com uma grande quantidade de textos e ferramentas computacionais que, aliadas a dados estatísticos, mostram como os textos variam sistematicamente e, desse modo, podem ser ensinados para permitir que o aluno consiga se comunicar, ler, escrever e entender textos dos tipos que encontrará em seu dia a dia. Nesse sentido, Grieve-Smith (2006, p. 24, tradução nossa) explica que:

54 64 Há um grande número de aplicações pedagógicas dos estudos da variação situacional. A principal aplicação é que, com o conhecimento dos tipos de texto em uma língua e as características gramaticais que os diferenciam, um aluno de uma língua pode aprender quais tipos de textos pode esperar encontrar e trabalhar para dominá-los individualmente. Reppen (1994) estudou a linguagem de crianças do Ensino Fundamental para ver como seu desenvolvimento linguístico variava ao longo dos anos, identificando 5 dimensões de variação: a) informação editada versus informação imediata; b) narrativa lexicalmente elaborada versus não narrativa; c) opinião pessoal versus discurso impessoal; d) cenário projetado; e e) outras justificativas diretas de ideias. A relevância de Reppen (1994) sobrecai sobre o fato de mostrar as diferenças linguísticas ao longo dos anos entre a linguagem falada e escrita das crianças e como a escola presta-se a nivelar boa parte das diferenças linguísticas à medida que os alunos avançam nas séries. Em Biber et al. (2004), estudo sobre a representação da linguagem acadêmica escrita e falada na universidade, o autor critica o modo como alguns tempos verbais e estruturas gramaticais são apresentados a alunos nativos e a alunos de inglês sem conhecimento empírico (e científico) do tipo de linguagem com o qual o aluno vai se deparar na universidade; com isso, o autor chega a brincar, dizendo que é mais fácil se formar nas disciplinas do que entender os textos instrucionais da universidade. O objetivo desse estudo foi desenvolver ferramentas diagnósticas utilizando as características linguísticas dos registros comuns na universidade como base para comparação e posterior análise de textos selecionados, possibilitando a descoberta de quais são as características linguísticas que estruturam cada registro e, assim, a sugestão de que essas características sejam ensinadas ao estudante de inglês que chega à universidade. Nessa pesquisa, foram identificadas 4 dimensões de variação linguística: a) discurso oral versus letrado; b) discurso ligado ao procedimento versus focado em conteúdo; c) orientação narrativa; e d) posicionamento acadêmico. Com base nas características linguísticas observadas nessas dimensões, é possível selecionar quais se relacionam com os registros que os alunos necessitam conhecer e ensiná-las para que eles possam compreender os registros com desenvoltura e obter bom desempenho na universidade e sucesso em seus estudos. Também há estudos que utilizam corpora de nativos, porém, cujos resultados refletem sobre o ensino de segunda língua, como o de Biber, Gray e Poopon (2011),

55 65 que versam sobre como a complexidade na escrita considerada avançada e fluente é vista e desconstroem a noção de que essa complexidade se realiza por meio do uso de subordinação e coordenação de orações. A escrita avançada de falantes nativos é, na realidade, baseada em períodos complexos e não no uso de orações subordinadas, como se acreditava anteriormente. Utilizando a AMD, os pesquisadores descobriram que o uso de subordinação e coordenação é mais frequente na fala do que na escrita. Na escrita acadêmica, são os períodos complexos formados por orações preposicionadas e orações nominais que aparecem com maior frequência e caracterizam esse tipo de registro. O tipo de construção que ocorre em escrita acadêmica traz mais informação acondicionada em uma só sentença. Dado esse resultado, Biber, Gray e Poonpon (2011) sugerem que, para ensinar alunos de segunda língua a escrever bem, é necessário ensinar os tipos de estruturas encontradas por eles. A relação desse artigo com nossa tese é estabelecida justamente pelo fato de almejarmos ensinar o que se usa para escrever em detrimento da intuição, privilegiando o que aparece de fato e é utilizado nos corpora estudados. Portanto, para aprender a escrever com variação, é necessário adotar o parâmetro correto, no caso de redações com características da conversação, é preciso mostrar como construir orações preposicionais e nominais, acondicionando maior quantidade de informação em uma sentença e, assim, ficar mais próximo da léxico-gramática utilizada na linguagem escrita. Reiteramos, assim, como pesquisas desse tipo têm muito a oferecer ao ensino. Ao discutir esses estudos, almejamos mostrar como os resultados obtidos na AMD são pertinentes e apresentam informação relevante para o aprendizado de segunda língua. Assim, esses estudos recomendam o uso dos resultados como conteúdos a ser ensinados. Um único revés, porém, é o fato de não apresentarem (por não ser esse seu objetivo) uma metodologia com procedimentos acerca do modo como utilizar esses conteúdos em atividades didáticas, algo que faz parte do escopo desta pesquisa. Desse modo, além de utilizar metodologias comprovadamente eficientes, almejamos inovar, desenvolvendo procedimentos para a aplicação dos resultados obtidos em AMD. Esta tese volta-se ao ensino de inglês como língua estrangeira e segunda língua utilizando como corpora de estudos os textos produzidos por aprendizes de inglês; portanto, faz-se necessário discutir a seguir a importância dos estudos de

56 66 corpora de aprendiz e AMD para o ensino de línguas AMD e as pesquisas com Corpora de Aprendiz No Brasil, os primeiros estudos envolvendo AMD e corpus de aprendiz foram Pacheco de Oliveira (1997) e Conde (2002). Pacheco de Oliveira (1997) investigou os problemas de adequação à situação de comunicação dos textos produzidos por alunos proficientes em inglês, enquanto que Conde (2002) investigou a variação nos textos de aprendizes de institutos de idiomas e universidades em comparação aos textos produzidos por alunos de escolas bilíngues. Pacheco de Oliveira (1997) utilizou um corpus composto por redações de alunos de uma universidade americana e redações em inglês e português de alunos da Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio). Analisando essas redações com a abordagem da AMD, a pesquisadora identificou 5 dimensões de variação que mostram que, entre os textos produzidos por alunos, há textos do gênero acadêmico e alguns são não acadêmicos. Também foi possível identificar na pesquisa que as redações traziam aspectos de influência cultural, tornando-as mais adequadas ou menos adequadas às situações de comunicação para as quais se prestavam. Conde (2002) identificou 4 dimensões de variação nas redações dos alunos: a) qualidade e organização textual; b) idiomaticidade na linguagem; c) oralidade; e d) nominalizações. A autora verificou que a diferença entre os 2 grupos em termos de variação ocorria principalmente no que diz respeito à qualidade e organização textual e ao uso de nominalizações. Enquanto os alunos de escolas bilíngues utilizavam a nominalização e inversão como recurso descritivo e demonstravam preocupação com a clara organização dos textos, os alunos de institutos de idiomas, em geral, utilizavam preposições (a factory of toys) de modo equivocado, ou em colocações nas quais a inversão (a toy factory) é a forma mais comum, e poucas conjunções e organizadores textuais, deixando o texto menos coeso. O estudo aponta diferenças potencialmente decorrentes do aprendizado de palavras isoladas e de estruturas linguísticas que desconsideram as colocações e coligações por parte dos alunos universitários e de institutos de idiomas. Novamente, pode-se notar que os resultados relatados em pesquisas como essa proporcionam informações significativas para o trabalho em sala de aula e para o ensino de segunda língua,

57 67 pois a investigação fornece dados concretos sobre a linguagem do aluno, mostrando o que ele é capaz de fazer ou não com o que aprendeu e o que falta ser aprendido, em detrimento de impressões intuitivas sobre o que os alunos precisam aprender. Por sua vez, Jarvis et al. (2003), com corpora de aprendizes espanhóis de inglês, teve por objetivo averiguar se perfis múltiplos de linguagem de aprendiz surgiriam entre as redações avaliadas com notas altas nos conjuntos de dados estudados. Os resultados da pesquisa mostram que, de fato, há grande variação nos perfis dos textos bem avaliados e que a avaliação não é homogênea, pois há redações com notas altas que apresentam algumas características linguísticas acima da média de uso e outras abaixo; ainda assim, todas receberam notas altas. Entende-se, aqui, que a escrita do aprendiz pode ser bem avaliada, mas apresentar diferentes características linguísticas com variação. Em estudo com um corpus de aprendizes de inglês da África do Sul, Van Rooy e Terblanche (2009) identificaram 5 dimensões de variação nas redações dos aprendizes. As dimensões apontavam variação no que diz respeito a letramento, clareza, informalidade, contextualização da informação e grau de persuasão. Uma vez que o corpus investigado pertencia ao projeto ICLE, as redações deveriam ser argumentativas, portanto, com alto grau de persuasão, clareza e contextualização e com baixo grau de informalidade. Van Rooy e Terblanche (2009) demonstraram que havia variação dessas características e que, portanto, havia diferenças marcantes na escrita dos aprendizes de um mesmo país. Podemos notar, por meio de Van Rooy e Terblanche (2009), que o uso de corpora de aprendiz e da AMD apresenta resultados relevantes para estudos em LCA, demostrando que, de fato, há diferenças entre o que se espera ver em uma argumentação (que é o caso das redações do ICLE e do BrICLE) e os diferentes textos argumentativos produzidos pelo aprendiz de inglês. Aguado-Jiménez, Pérez-Paredes e Sánchez (2012) mostraram como os textos com os quais os alunos têm contato variam e como, ao realizar atividades de conscientização sobre a variação linguística nos textos que utilizam, os alunos aprenderam a reconhecer os diferentes registros. A pesquisa foi realizada por meio da AMD de textos em língua espanhola (a primeira língua dos participantes da pesquisa) e textos produzidos por falantes nativos de língua inglesa na realização de mesmas tarefas. A AMD mostrou como os corpora estudados variavam e as características linguísticas que compunham as variações. Assim, a partir desses

58 68 resultados, os pesquisadores desenvolveram atividades de conscientização selecionando textos nas duas línguas para mostrar aos estudantes a variação e comparar as diferenças entre os textos. Esta pesquisa difere de Aguado-Jiménez, Pérez-Paredes e Sánchez (2012) no sentido de que almejamos apresentar os procedimentos para a seleção de conteúdos, extrair conteúdos dos resultados obtidos e apresentar atividades didáticas utilizando esses conteúdos. Ademais, as atividades não visam apenas à conscientização acerca das diferenças, mas, sim, almejam contribuir para que o aluno possa aperfeiçoar sua escrita utilizando ora um modo de escrever, ora outro, de acordo com suas necessidades. Uma parte significativa desta tese é demonstrar como desenvolver atividades didáticas a partir dos resultados obtidos por meio da AMD de corpora de aprendiz. Assim, discutimos a seguir o desenvolvimento de atividades para materiais didáticos Desenvolvimento de atividades didáticas São muitas as discussões e debates a cerca do que é um bom material didático (MD) e de como criar materiais didáticos mais adequados a este ou aquele propósito. Na realidade, muito do que se discute tem a ver com a visão de língua e ensino/aprendizado que os designers de MD têm. Há algum tempo, acreditava-se que para aprender uma língua era necessário criar um hábito (desenvolver um comportamento), por isso, as atividades e MDs apresentavam inúmeros exercícios de repetição (drills, em inglês), em geral com foco em aspectos gramaticais da língua. Mais tarde, passou-se a acreditar que para aprender inglês era necessário aprender o vocabulário e as estruturas para se comunicar, tirando o foco do aprendizado de estruturas gramaticais. Mais recentemente, o ensino de línguas se voltou para o aprendizado por meio da interação com outros alunos, com o professor e com o MD e com base em gêneros textuais. Como se pode notar, de tempos em tempos, olha-se para a língua e para o aprendizado de línguas de determinada nova maneira, o que influencia diretamente o modo de ensinar línguas. Apresentamos, aqui, o quadro conceitual que embasa nossa tese no que diz respeito ao desenvolvimento de MD. Destacamos em nossa proposta a visão da LC em relação ao ensino de línguas: a linguagem é formada por padrões que precisam ser ensinados ao aprendiz de uma língua estrangeira porque envolvem grupos de palavras que co-

59 69 ocorrem sistematicamente e conferem determinado significado aos textos onde se encontram. A escolha do conteúdo para as atividades propostas nesta tese baseiase nessa visão de linguagem. Para utilizar os conteúdos selecionados, procuramos propor atividades que contribuam para a conscientização do aluno sobre os padrões de linguagem e a variação linguística. Para essa finalidade, acreditamos que as atividades devem englobar a análise de concordâncias para estudar e compreender padrões de uso de linguagem. Elas devem conter comparação entre padrões de linguagem em textos de diferentes dimensões de variação, para desenvolver a percepção da variação linguística, prática dos padrões apresentados e aplicação dos padrões na confecção de textos como os das diferentes dimensões estudadas. Os diferentes textos interrelacionam-se e são formados pelas diferentes características linguísticas observadas nos textos argumentativos de alunos de inglês nesta pesquisa. Denominamos atividade didática todo tipo de prática criteriosa para o ensino que leve o aluno a investigar, pensar, compreender e utilizar diferentes características linguísticas para compor textos de diferentes estilos de acordo com sua variação interna. Para isso, optamos por utilizar atividades sob a forma de tarefas porque uma das características desse tipo de atividade que nos interessa é a possibilidade de obter um resultado ao final de sua realização, o que é entendido como algo motivador (WILLIS, 1996; 2007; ELLIS, 2003; 2004). Por acreditarmos que o aluno deve investigar e pensar sobre a língua que está aprendendo, também utilizamos atividades observadas no ensino guiado pelos dados; elas fazem parte de uma estrutura que engloba as fases da proposta didática de Ramos (2004), que possibilitam trabalhar a apresentação (familiarização e conscientização), o detalhamento e a aplicação da linguagem, e as fases da proposta didática de Berber Sardinha (2011), porque apresenta procedimentos que facilitam o trabalho com concordâncias e textos entrelaçados de acordo com os pressupostos teóricos da LC, que embasam nossa pesquisa. Acrescentamos a esse quadro conceitual a discussão sobre o modo como a AMD pode ser integrada a essas propostas. A seguir, desenvolvemos uma breve descrição dessas abordagens, demonstrando como elas são utilizadas em nossa pesquisa.

60 Ensino guiado pelos dados O ensino guiado pelos dados (EGD), surgiu quase que concomitantemente aos estudos da LC. Isso porque se considera que o EGD possibilita que o aluno crie suas próprias hipóteses e, segundo Hunston (2002, p. 170, tradução nossa), melhore, de forma geral, sua habilidade de utilizar o contexto para deduzir significados. A principal característica desse tipo de ensino é o uso de linhas de concordância para o reconhecimento e aprendizado de padrões de uso de linguagem. O grande defensor e precursor do uso do EGD foi Tim Johns; ele afirmava que o aluno tem de ser um detetive da língua (RÖMER, 2008; HUNSTON, 2002) e que, por meio do manuseio de corpora e linhas de concordâncias, todo aluno poderia ser um Sherlock Holmes. No EGD, a proposta é que o professor forneça a seus alunos linhas de concordância que tenham como destaque, no centro (a palavra de busca), o padrão léxico-gramatical que almeja ensinar. Ao se deparar com as concordâncias, é esperado que o aluno examine-as, investigue-as e identifique quais são e como se formam os padrões e quais são seus significados. Esse tipo de uso é denominado aplicação direta de corpora (RÖMER, 2008). Na aplicação direta de corpora, há dois modos principais para utilizar o EGD: a) o professor pode deixar o aluno explorar o corpus e procurar por sua própria conta o que lhe interessa no texto e, então, estudar os padrões; ou b) o professor pode propor palavras de busca focando algo que queira ensinar. Em ambos os casos, não é necessário selecionar ou editar as concordâncias, isso será realizado pelo aluno e o professor vai auxiliá-lo na leitura das linhas e na compreensão dos padrões. Essa era a forma de trabalho mais apregoada por Tim Johns. A vantagem desse tipo de trabalho é que o professor não precisa de muito tempo para o preparo das atividades. A desvantagem (ou vantagem) é não ter controle sobre quais padrões podem aparecer nas linhas de concordância e, por isso, ele pode ser surpreendido com algo que também precisa aprender. O outro modo de utilizar o EGD é adotar palavras de busca e selecionar as concordâncias com as quais o aluno vai trabalhar, pois, assim, o professor pode mostrar-se mais bem preparado para o tipo de padrão que aparece e tem maior controle sobre o que vai ensinar, principalmente se, como no nosso caso, já há padrões específicos que precisam ser trabalhados.

61 71 A maior desvantagem, aqui, é o fato de que o aluno não tem a mesma chance de explorar o corpus livremente e o tempo para a preparação da atividade é bem maior. A grande vantagem em ambos os casos é que o aluno precisa pensar sobre a língua e vai aprender de modo mais autônomo, porque o professor vai funcionar como um guia na interpretação das concordâncias, e não como fonte de todas as explicações, como único detentor do conhecimento. Reforçando as vantagens do uso do EGD, Sinclair (1997, p. 38, tradução nossa) afirma que, para o aprendiz, o uso de corpora vai esclarecer, estabelecer prioridade, reduzir exceções e liberar o espírito criativo. Embora tanto Sinclair como Tim Johns defendessem o uso de corpora sem qualquer tipo de filtro, ou seja, sem que o professor selecionasse as palavras de busca e as concordâncias, justamente para não restringir o aprendizado e podar a curiosidade do aluno, em nossa proposta de atividade utilizamos o segundo tipo de EGD mencionado. Decidimos trabalhar com palavras de busca escolhidas de antemão e com a seleção das concordâncias porque nosso escopo é ensinar o aluno a variar sua escrita de modo consciente, portanto, tivemos de nos limitar a utilizar concordâncias por meio das palavras de busca ou dos padrões advindos das características linguísticas das diferentes dimensões de textos argumentativos (produzidos pelos alunos de inglês), para possibilitar comparações entre os traços linguísticos desses textos. Esse uso também é apoiado por Hunston (2002, p. 171, tradução nossa), que afirma: nesse caso, o professor objetiva ensinar itens que são reconhecidamente problemáticos ou úteis para o grupo de alunos envolvidos. O EGD traz, assim, a possibilidade de criar atividades com base nas características linguísticas dos textos que estudamos, desenvolver a consciência linguística do aluno quanto à linguagem (semelhanças e diferenças), bem como adequar o formato da tarefa à estrutura das propostas pedagógicas de Ramos (2004) e Berber Sardinha (2011), que também são utilizadas aqui. A seguir, discutimos as fases da proposta de Ramos (2004) e indicamos como elas se encaixam em nosso trabalho Proposta de Ramos A proposta didática de Ramos (2004) foi desenvolvida com vistas ao ensino de gêneros textuais em curso de inglês instrumental. A pesquisadora, com vasta

62 72 experiência na área, explica que os gêneros textuais ainda não são amplamente explorados no ensino e que parte do problema decorre do fato de que não há muitas propostas didáticas para tal. Ainda que o foco do estudo de Ramos (2004) seja o gênero, as fases para o ensino de gêneros propostas pareceram adaptar-se quase que naturalmente à nossa proposta de ensinar dimensões de variação linguística na argumentação, pois incluem itens que levam em consideração a conscientização do aluno sobre as características do texto, o aprendizado das características léxicogramaticais do texto e a aplicação do conhecimento adquirido, que é o que almejamos desenvolver nesta tese. Ramos (2004) propõe que as atividades didáticas para o ensino de gêneros textuais ocorram em três fases distintas, porém, relacionadas e não estanques: Apresentação: conhecer o gênero sob a perspectiva da contextualização de forma ampla. Essa contextualização tem a ver com levar o aprendiz a notar o contexto de situação e cultura a partir de dois conceitos: o Conscientização: fazer com que o aluno perceba os aspectos situacionais do texto, ou seja, o veículo desse texto, quem o lê, os traços linguísticos que o caracterizam etc. o Familiarização: envolve a identificação do conhecimento que o aluno já tem do gênero em questão e, caso seja necessário, a disponibilização de acesso às informações necessárias que ele ainda não possui sobre determinado gênero (RAMOS, 2004, p. 119). Detalhamento: as atividades devem abranger tanto o aspecto mais amplo do texto (já visto na primeira fase) como os aspectos mais específicos, tais como apresentação da léxico-gramática das várias partes do texto. Aplicação: essa fase é considerada a mais importante, pois as atividades apresentadas devem levar à consolidação do aprendizado do aluno e ao uso de tudo o que foi aprendido, ou seja, à aplicação prática. Por não constituir objetivo desta tese, não discutimos as definições de gênero, ao contrário de Ramos (2004); indicamos porque e como utilizamos sua proposta. Não almejamos trabalhar com gêneros textuais, mas, sim, com diferentes modos de construir um texto argumentativo. No entanto, se observarmos as fases propostas, é possível notar que o modo como são apresentadas não obriga o uso de gêneros textuais, apenas de textos que apresentem características variadas, dado

63 73 certo contexto situacional. Como abordamos a variação na escrita argumentativa, utilizamos a conscientização para levar o aluno a perceber que há diferentes tipos de texto argumentativo e que, embora o aluno (talvez) saiba utilizar alguns deles, possivelmente não o faça de modo consciente (AGUADO-JIMÉNEZ; PÉREZ- PAREDES; SÁNCHEZ, 2012). A familiarização serve como modo de mostrar ao aluno o que ele já é capaz de fazer e o que ele ainda precisa aprender, partindo de um (tipo de) texto que ele mesmo produziu para chegar a um texto de outro tipo, ou seja, parte-se daquilo que o aluno já sabe fazer para que entenda o que mais pode fazer. Consideramos a fase de detalhamento a mais importante, já que temos a oportunidade de apresentar atividades, em sua maioria, ligadas ao EGD ou, pelo menos, partindo dos dados, para ensinar e comparar padrões linguísticos que mostram como os textos (argumentativos de aprendizes) variam, sendo essa a fase focal de nossas atividades. A última fase, a aplicação, será utilizada em atividades que façam com que o aluno aplique conhecimentos escrevendo de modo variado, principalmente ao converter textos de um tipo em textos de outro tipo. Ainda que consideremos essas fases uma opção significativa de estruturação de atividades, elas não foram desenhadas necessariamente para o uso com LC e, portanto, necessitam de uma complementação; assim, optamos por trabalhar, também, com os procedimentos para uso de concordância e textos propostos por Berber Sardinha (2011) para o ensino com a LC, cujos procedimentos são apresentados a seguir Proposta de Berber de Sardinha Nos últimos anos, diversas formas de uso da LC no ensino têm sido propostas. No entanto, ainda não se observa uma expansão do uso de corpora em sala de aula, mas algumas esparsas mudanças em materiais didáticos, que agora falam sobre colocações, uso e alegam conter textos autênticos o que pesquisas como as de Contrera (2010) demonstram não ser algo verdadeiro. Em decorrência disso, diversas propostas têm surgido para implementar o uso de corpora no ensino; em uma delas, Berber Sardinha (2011) indica que as atividades com corpora podem centrar-se nas concordâncias, no texto e em materiais multimídia e multigêneros. Elencamos a seguir os procedimentos básicos para trabalhar com essa proposta.

64 Atividades com corpora centradas nas concordâncias Procedimentos: Escolher palavras de busca; Averiguar se utilizará a sala de aula ou o laboratório de informática (criar atividades de pesquisa no papel ou com as ferramentas da LC); Escolher o tipo de concordância: integral, selecionada, editada, preenchida ou lacunada; Determinar a quantidade de concordâncias; Criar atividades. Para seguir esses procedimentos, é necessário adotar alguns cuidados, relativos à escolha de palavras de busca que, em geral, devem ser as mais frequentes no corpus ou ter relação com o padrão que o professor almeja ensinar. A escolha do local para a atividade tem relação direta com o modo como será planejada, ou seja: a) pode ser mais interativa e voltada à aplicação direta do corpus, deixando a cargo do aluno pesquisar e fazer várias buscas com palavras variadas para observar as concordância obtidas sem qualquer edição; ou b) pode ser realizada em papel, com concordâncias editadas ou lacunadas, em duplas ou grupos, para que a discussão entre os alunos leve à análise e ao aprendizado do padrão estudado. Cuidados com a edição das concordâncias também devem ser adotados, para evitar excesso de simplificação que torne a linguagem artificial. Outro fator significativo que deve ser cuidadosamente determinado é a quantidade de concordâncias; um número muito pequeno pode dificultar a percepção de que existe um padrão ou de qual significado esse padrão confere àquele texto, enquanto que um número muito grande de concordâncias pode confundir o aluno e tornar a atividade pouco atraente para ele. Por fim, na apresentação das atividades, é necessário certificar-se de que elas não são todas do mesmo tipo e que não apresentam o mesmo grau de dificuldade. Atividades apresentadas desse modo podem não despertar a curiosidade do aluno e, como não há variação do grau de dificuldade, elas podem não ser desafiadoras, diminuindo a motivação do aluno para realizá-las (MALONE, 1981; KELLER, 1983). Nesta pesquisa, utilizamos as concordâncias para explicitar padrões de uso e

65 75 despertar a consciência linguística do aluno, tanto para a fase de apresentação da proposta de Ramos (2004) como para a fase de detalhamento. No entanto, algumas de nossas atividades apresentam porções maiores de texto, tanto no detalhamento como na aplicação, e, por isso, também se mostra necessário trabalhar com os procedimentos propostos por Berber Sardinha (2011) para atividades centradas no texto, como apresentamos a seguir Atividades com corpora centradas no texto Procedimentos: Determinar o tamanho da atividade (uso com programas para criar atividades automáticos); Selecionar o texto que será o foco da atividade; Análise preliminar para ver os conteúdos do texto (frequência de uso das palavras, dificuldade do texto, densidade lexical, colocações etc.); Customizar atividades. Como esta pesquisa apresenta atividades para ensinar o aluno a variar seu texto, em alguns tipos de atividades trabalharemos com o texto em si e não apenas com linhas de concordância extraídas de vários textos. As atividades desse tipo são observadas nas três fases da proposta de Ramos (2004) e são necessárias, principalmente, para a comparação entre características de textos de tipos variados. No entanto, esta tese difere no que diz respeito à escolha do texto e à análise preliminar dos conteúdos, pois esses dados já são proporcionados pela AMD dos corpora de aprendiz. A AMD dos corpora de aprendiz mostra não apenas como as redações variam em relação à variação dos registros em inglês (BIBER, 1988) e em suas próprias dimensões, mas, também, quais redações apresentam determinadas características em detrimento de outras. Desse modo, a seleção de textos e de palavras de busca para gerar as linhas de concordâncias é realizada partindo da AMD.

66 Atividades com corpora centradas em materiais multimídia e/ou multigêneros Apresentam procedimentos similares aos utilizados nas atividades centradas em concordâncias e textos, porém, acrescentam o uso de recursos da internet e de jogos de videogame (multimídia). Para a realização desse tipo de atividade, é necessário que o aluno já tenha conhecimento tanto de conceitos de gênero como de termos usuais da LC (p. ex., frequência, colocação etc.) e, claro, ele deve saber utilizar ferramentas computacionais para análise linguística. Nesta pesquisa, não apresentamos atividades ligadas a materiais multimídia e/ou multigêneros. Primeiro, porque não lidamos com gêneros, somente registros e tipos de argumentação. Segundo, porque não trabalhamos com jogos ou características linguísticas desse gênero, mas, sim, redações argumentativas. Apresentamos atividades com linhas de concordância que podem ser utilizadas no papel ou on-line; neste último caso, temos o uso da internet, porém, o uso de multimídia não constitui objeto desta tese. Em resumo, nossa proposta de atividade envolve tarefas, desenvolvidas principalmente no formato utilizado em EGD, com concordâncias e interpretação de padrões para conscientizar o aluno acerca dos diferentes tipos de argumentação na fase de apresentação; na fase do detalhamento, ensina-se a reconhecer e produzir textos com diferentes características linguísticas e, consequentemente, variação e comparação de tipos por meio do EGD; por fim, propõe-se que o aluno escreva diferentes tipos de argumentação. Tal intento é facilitado pelos resultados obtidos na AMD, que proporciona informação acerca de quais tipos se caracterizam por quais traços linguísticos e quais redações variam ao longo das dimensões de variação linguística desses tipos e apresentam tais características. Desse modo, a definição das palavras de busca para gerar as linhas de concordância não se baseia em dados de frequência, como normalmente ocorre em LC, mas, sim, nas características linguísticas das dimensões de variação identificadas por meio da AMD. É necessário, ainda, esclarecer que a noção de tarefa que embasa nossa tese refere-se a qualquer tipo de trabalho ou atividade no qual o aluno se engaja, com objetivo e estrutura específicos, que o leve a refletir sobre o que está aprendendo, que possibilite o refinamento de seus conhecimentos e capacidades na

67 77 nova língua estudada, para chegar a um resultado (ELLIS, 2003). O resultado almejado, aqui, é tornar o aluno capaz de perceber os diferentes tipos de argumentação e utilizá-los de modo eficaz. Portanto, em nossa proposta de tarefa, esta não é uma atividade para que o aluno negocie a linguagem, uma espécie de desculpa para o aluno utilizar a língua enquanto a realiza, como propõe Willis (1996; 2007). A proposta de Willis nos parece mais ligada ao ensino comunicativo e de conversação em inglês, com foco no significado, porém, ela deixa a forma de lado; em nossa tese, voltada ao ensino da escrita, a forma e o significado estão associados (léxico-gramática) e são igualmente relevantes. Além disso, almejamos que o aluno desenvolva um conhecimento consciente acerca dos diversos modos de escrever, por isso, a linguagem ocorrer em meio à negociação para concluir a tarefa não se adéqua à nossa proposta. Ao lidar com a argumentação para ensinar o aluno a escrever textos argumentativos de diferentes modos, segundo a situação envolvida, almejamos abordar a variação linguística por meio das dimensões observadas nos textos produzidos por alunos de inglês de nível avançado. Ressaltamos esse fato porque os resultados obtidos por meio da AMD de corpora de aprendizes apresentam dimensões de variação que podem ser entendidas como diferentes modos de argumentar expressos por diferentes alunos, ou seja, um aluno apenas não conhece necessariamente todas essas formas, no entanto, por se tratar da linguagem produzida por alunos, ela faz parte daquilo que um aluno de inglês de nível avançado é capaz de produzir. Uma vez que esta tese lida com a argumentação, discutiremos algumas de suas características no Capítulo 2, relativo ao nosso referencial teórico.

68 78

69 79 2 REFERENCIAL TEÓRICO Neste capítulo, apresentamos uma breve discussão acerca da argumentação e do ensino/aprendizado de línguas, que constituem conhecimentos necessários a esta tese. Em relação à argumentação, indicamos como ela é caracterizada e qual é sua influência na produção de textos. Quanto ao ensino/aprendizado de línguas, apresentamos um breve histórico do modo como mudanças diversas têm influenciado diretamente o desenvolvimento de materiais didáticos e o modo como se vê e ensina uma língua A argumentação Os estudos que abordam a escrita argumentativa divergem muito e apresentam estruturas variadas, além de envolverem o embate entre argumentação e persuasão. No entanto, como se trata de um aporte teórico relevante para nossa tese, discutimos a estrutura argumentativa e os critérios para a elaboração desse tipo de texto e quais são as características linguísticas observadas. Primeiro, mostra-se relevante definir a argumentação. Segundo Schainiuka (2011, p. 2479), a argumentação consiste na utilização de recursos linguísticos para convencer o interlocutor de uma ideia. Assim, o objetivo da argumentação seria demonstrar ou refutar uma tese. Outra definição é proposta por Toulmin (2001 apud GARCIA; RANGEL, 2012, p. 103), indicando que a argumentação é o desenvolvimento de um raciocínio que parte de dados aceitos e que, por meio de uma justificativa, conduz o ouvinte a uma conclusão possível. Esta segunda definição é particularmente relevante, porque parte do pressuposto de que há uma ideia aceita e que a partir dela é possível convencer o interlocutor por meio de recursos de natureza linguística. Não almejamos apresentar sugestões sobre o modo como trabalhar com os movimentos ou as sequências da argumentação (p. ex., introdução, corpo e conclusão), mas, sim, com as características linguísticas que devem estar presentes ao longo do texto e que contribuem para o texto atingir o objetivo de defender ou

70 80 refutar uma tese. Ainda assim, é necessário conhecer as estruturas e compreender o que se espera que essas estruturas comuniquem para indicar o que é esperado de um texto argumentativo, principalmente no meio acadêmico. Connor (1990) apresenta uma proposta de movimentos na argumentação, quais sejam: Movimento de informação; Movimento de proposição; Movimento de reivindicação; Conclusão. Um fator relevante da proposta de Connor (1990) é a descrição do que deve ser observado em cada um dos movimentos. No movimento 1, espera-se encontrar tempos verbais no presente e no presente perfeito, advérbios de tempo e indicação de plausibilidade e relevância atual. Para o movimento 2, Connor (1990) especifica o que se espera encontrar na proposição como segue: a) linguagem que esclareça a opinião do autor (in my opinion, personally speaking, when it comes to me, as for me), na sequência; b) linguagem que mostre que se aprova ou desaprova algo veemente (I strongly disapprove of, I agree with, I prefer to suport, I would like to). Na sequência, Connor (1990) indica que o locutor apresenta seu posicionamento em relação a algum ponto controverso. Para o movimento 3, Connor (1990) afirma que se espera encontrar verbos modais (can, will) para, por exemplo, ilustrar uma possibilidade ou potencial avaliação. Por fim, para o movimento 4, Connor (1990) sugere o uso de marcadores como all in all, in a word, in short, to draw a conclusion. O autor afirma, ainda, que na argumentação a linguagem abstrata funciona melhor que a situada. A estrutura da argumentação envolve números de partes e nomenclatura distintos. Jenkins e Pico (2006) propõem a seguinte estrutura para a argumentação: Introdução: tópico e ponto de vista; Corpo: ponto de vista do locutor na argumentação, proposição de argumentos contra, rejeição dos argumentos contra; Conclusão: proposta para o futuro. Nessa estrutura, observamos que o propósito da introdução é apresentar o

71 81 assunto tratado e indicar o ponto de vista do locutor. No corpo do texto surgem os jogos de opinião, contraposição e posicionamento, assim, o objetivo dessa parte do texto é explicitar que uma ideia foi proposta e que, embora haja este ou aquele problema com ela, essa ideia é viável; a função é convencer o leitor sob o ponto de vista do locutor. Na conclusão, é necessário mostrar como esse ponto de vista propriamente dito deve prevalecer e sua influência sobre o que virá na sequência. Dobbs (2013) propõe outra estrutura: Introdução: tese que explique o propósito da redação, constitui um mapa para o texto; Corpo: espaço para a organização da informação, para expor o ponto de vista; Conclusão: parágrafo para dar suporte à tese. As propostas parecem reforçar a noção de que a argumentação é composta por três partes essenciais (os movimentos 2 e 3 de Connor podem ser combinados para formar o corpo do texto): a) introdução; b) corpo; e c) conclusão. O propósito da introdução é apontar o assunto e ponto de vista defendido pelo locutor. Já o corpo do texto deve apresentar uma defesa inicial da tese, indicar em quais pontos há problemas e defender esses pontos, para convencer alguém a respeito de algo. Ao final, temos a conclusão, que traz uma espécie de resumo de tudo e um reforço do ponto de vista que está sendo defendido. Na linguística textual, a argumentação é denominada sequência argumentativa e algumas de suas funções são previstas. Nessa sequência, Adam (2008) propõe que a argumentação opera em dois níveis: a) o nível justificativo; e b) o nível dialógico, ou contra-argumentativo. No nível justificativo se observa a exposição de fatos, os dados que introduzem a discussão, a argumentação em si, a apresentação da conclusão para a discussão inicial e uma nova tese. Quando falamos no nível justificativo, entendemos que o interlocutor não é levado em conta, ou seja, o que importa é a informação em si. No nível dialógico, ou contra-argumentativo, apresenta-se a tese anterior (do nível justificativo), a refutação da tese anterior e a negociação com um contra-argumentador (real ou potencial). Nesse nível, entra a interação com o interlocutor para buscar a transformação de conhecimentos, ou seja, para fazer com que o interlocutor aprenda (entenda ou se convença) e concorde com a ideia proposta na tese. Outro ponto relevante apresentado por

72 82 Schainiuka (2011) é que, embora haja uma sequência determinada para a descrição, em muitos casos, a descrição entrecruza a argumentação. A relevância dessa afirmação recai sobre o fato de que ela demonstra que a argumentação não constitui um texto necessariamente puro, ou seja, há interferência de características de outros tipos de texto, o que faz com que o texto argumentativo possa variar, mas, ainda assim, permaneça sendo argumentativo. Complementando a noção de dois níveis de argumentação, justificativa e dialógica, indica-se a existência de diferentes níveis de argumento em um mesmo texto, por conta disso, cada nível deve funcionar passo a passo, partindo do argumento à justificação, à conclusão utilizando articuladores textuais, elementos linguístico-gramaticais para determinar e evidenciar as relações entre as partes do texto. Além da noção de os argumentos variarem dentro do texto, ideia que compartilhamos por acreditar que a variação da argumentação é, principalmente, interna, Garcia e Rangel (2012) elencam os diferentes tipos de argumento: Argumento de princípio: leva a uma forma pura de dedução, cuja justificativa mostra-se tão legitimada que a conclusão é quase automática; Argumento por generalização: relativa à indução, propõe exemplos significativos o suficiente para conduzir à conclusão; Argumento por causa: a argumentação funciona tanto em termos de causa e efeito como de efeito e causa; Argumento por sinal: a justificativa se mostra uma evidência tão contundente que valida a conclusão; Argumento por analogia: a conclusão se dá por meio de comparação entre situações; Argumento por autoridade: a conclusão é sustentada pela opinião de uma pessoa confiável. Tendo em vista a noção de que a argumentação apresenta variação interna e de que há diferentes tipos de argumento para construir o texto argumentativo, é necessário conhecer maneiras de variar o texto. Ensinar a variação no texto argumentativo é um dos propósitos desta tese. Nossa proposta parte das dimensões de variação das redações argumentativas de alunos de inglês para identificar características linguísticas que representem a variação de modo sistemático e, assim, desenvolver materiais para ensiná-las.

73 83 Considerando as noções aqui discutidas, entendemos que a argumentação, em termos de estrutura retórica, ocorre em três fases principais, a introdução, o corpo e a conclusão. No entanto, em especial a parte que se refere ao corpo, a argumentação pode ser subdividida em dois níveis, o justificativo e o dialógico. É nesses dois subníveis que se observa as características linguísticas que delineiam a argumentação. Embora as características mencionadas aqui sejam fundamentais para identificar o tipo de linguagem utilizada com propósitos argumentativos, não há uma descrição sistemática delas. Portanto, adotamos as dimensões de variação linguística, que possibilitam uma descrição sistemática, para correlacionar os tipos de argumento para indicar a linguagem adequada para variar a argumentação. Nota-se, no entanto, que as sugestões, em termos de características linguísticas, têm a ver, principalmente, com modalizadores e verbos modais, organizadores textuais (p. ex., advérbios) e linguagem rebuscada, o que não é necessariamente verdadeiro. Trabalhar somente com essas caracterizações seria não levar em conta que em diferentes situações e contextos pode haver diferentes características. Portanto, nesta tese, trabalhamos com as características linguísticas observadas nos textos estudados e que mostram os diferentes modos de compor textos argumentativos em vez de somente aquilo que, em geral, é prescrito. Além de apresentar algumas noções e conceitos sobre a argumentação, a seguir discutimos questões relativas ao ensino/aprendizado de línguas Ensino aprendizado de línguas Nesta seção, abordamos aspectos do ensino/aprendizado de línguas, para resumir o histórico e as tendências dessa área e indicar como optamos pelo tipo de atividades didáticas propostas nesta tese. Primeiro, apresentamos noções de ensino relacionadas ao behaviorismo. Em seguida, apresentamos as hipóteses de Krashen (1982). Depois, discutimos algumas ideias sobre o ensino comunicativo. Por fim, discutimos o aprendizado de línguas de forma consciente em oposição à aquisição de linguagem Behaviorismo O behaviorismo é uma abordagem de aprendizado que remonta ao período

74 84 positivista da ciência. Desse modo, os estudiosos envolvidos buscavam explicar todo o aprendizado humano com uma base e um condicionamento, ou seja, dado certo estímulo, espera-se certa resposta. Assim, no aprendizado de língua estrangeira, acreditava-se que para aprender determinada língua era necessário seguir um modelo (um exemplo da estrutura e/ou vocabulário a ser adquirido) da língua e treiná-lo até que o aprendiz passasse a reproduzi-lo. O maior defensor do behaviorismo moderno, criador de procedimentos para ensinar algo a alguém por meio dessa abordagem, foi Skinner (1957). Segundo Williams e Burden (1997, p. 9, tradução nossa): [...] a teoria behaviorista veio a explicar o aprendizado em termos de condicionamento operante: um indivíduo responde a um estímulo comportando-se de determinado modo. [...] Se esse comportamento é reforçado (p. ex., por uma recompensa ou punição), então, a probabilidade de aquele comportamento ocorrer em ocasiões subsequentes será, gradualmente, aumentada ou diminuída. Assim, com base na noção de que o aprendizado poderia ocorrer por meio do desenvolvimento de um comportamento que deve ser reforçado, Skinner propôs 4 procedimentos simples para professores ensinarem algo: Os professores devem deixar absolutamente claro o que vai ser ensinado; O conteúdo ensinado deve ser dividido em pequenas partes e sequenciado; O aluno deve trabalhar individualmente, de acordo com seu próprio passo; O aprendizado deve ser programado ao incorporar os procedimentos mencionados e fornecer reforço positivo imediato. Aplicando esse pensamento ao ensino de línguas, acreditava-se, então, que para aprender uma língua o aluno deveria fazer exercícios de repetição com as estruturas gramaticais a ser aprendidas, denominados drills em inglês, para desenvolver o hábito de utilizá-las corretamente, ao receber reforço positivo sempre que acertavam os exercícios. Anos mais tarde, muitas críticas foram feitas a essa prática. A primeira delas foi relativa ao fato de que a noção indicando que determinado estímulo leva a certa resposta não leva em consideração a cognição, ou seja, ao receber um estímulo, de alguma forma, o aprendiz pensa sobre ele, o que influencia sua resposta. Em segundo lugar, os drills levam o aluno a memorizar o que deve ser feito e, assim, ele

75 85 mostra-se capaz de acertar a resposta sem ter ideia do significado das palavras ou do que fala. Em terceiro lugar, como esses drills são divididos em pequenas partes para que seja aprendido, todo o conteúdo dos exercícios mostra-se descontextualizado e, consequentemente, o aprendiz não consegue saber em que situação deve utilizar uma estrutura ou vocabulário aprendido. Após a fase ligada ao aprendizado pelo desenvolvimento de um comportamento, despontaram estudos do ensino/aprendizado relacionado à cognição. Um de seus expoentes foi Krashen (1982), que desenvolveu uma teoria ligada aos filtros afetivos no aprendizado, discutida a seguir As hipóteses de Krashen Krashen (1982) apresentou sua proposta de que a aquisição de linguagem se dá por meio de 9 hipóteses, que responde tanto aos anseios da pesquisa em linguística aplicada quanto à nossa intuição quanto a essa aquisição, quais sejam: 1. Distinção entre aquisição e aprendizado; 2. A ordem natural de aquisição; 3. O monitoramento; 4. O input; 5. A afetividade; 6. A aptidão; 7. O filtro; 8. A primeira língua; 9. A variação individual no uso do monitoramento. Quanto à distinção entre aquisição e aprendizado, Krashen (1982) acreditava que a aquisição era o modo pelo qual as crianças, aprendendo sua língua nativa, desenvolviam seu conhecimento daquela língua, ou seja, informalmente e de modo inconsciente. Já o aprendizado, na escola, por exemplo, era consciente e formal, ocorria por meio de aulas e ensino explícito da língua. Por conta dessa distinção, Krashen (1982) afirma que a aquisição de uma língua é mais relevante que seu aprendizado. No caso da ordem natural de aquisição, Krashen (1982) acredita que há uma ordem segundo a qual se adquire determinadas estruturas linguísticas. Algumas

76 86 estruturas são adquiridas mais cedo, tanto por falantes de primeira língua quanto por aprendizes daquela língua. Sendo assim, em alguns casos, o autor acredita que o aprendiz de segunda língua pode chegar a levar 10 anos para adquirir determinada estrutura e, dependendo das condições, pode sequer conseguir utilizá-la. Ao tratar do monitoramento, Krashen (1982) afirma que o aprendiz de uma língua somente o faz com aquilo que aprendeu, o que adquiriu é utilizado naturalmente. Assim, o aprendiz só consegue monitorar quando tem tempo para pensar e conhece bem as regras gramaticais. Quando precisa falar rapidamente, ele comete os mesmos erros que uma criança aprendendo a falar; quando é possível escrever (o que, em geral, é feito com mais tempo), ele não comete tantos erros. Quando trata da hipótese relativa ao input, Krashen (1982) afirma que se o aprendiz foca a mensagem e não a estrutura da língua, ele adquire essa língua com maior facilidade. Além disso, não se pode falar em qualquer tipo de input ; ele deve ser, de alguma forma, passível de compreensão pelo aluno (LIGHTBOWN; SPADA, 2006). A partir dessa noção de input é que se desenvolvem as noções de tarefa comunicativa e abordagem comunicativa. Entretanto, Krashen (1982) não deixa de lado a afetividade, ou seja, a atitude do aprendiz em relação a seu aprendizado. Para ele, dependendo da personalidade, da motivação e da situação, pode-se adquirir uma língua mais rapidamente ou mais lentamente. Assim, se o aprendiz gosta de músicas em inglês ou se interessa por algum aspecto da língua e tem a oportunidade de lidar com esse conteúdo, é provável que ele adquira a linguagem observada nesses contextos com facilidade, enquanto que se a experiência do aluno com a língua foi ruim, ele pode apresentar resistência a ela e não aprender como se espera. A aptidão para o aprendizado de línguas tem a ver com o aprendizado consciente, portanto, para Krashen (1982), uma pessoa com aptidão consegue aprender rapidamente a gramática, etc., mas não necessariamente adquire a língua. A noção de filtros proposta por Krashen (1982) relaciona-se com a afetividade, uma vez que, para adquirir uma língua, o input tem de ter caminho livre. No caso de aprendizes em situação de estresse ou pressão, pode haver um bloqueio que impede que aquilo que está sendo ensino seja adquirido. Assim, um bom ambiente para a aquisição da linguagem é aquele no qual o aluno é mantido com o filtro baixo, ou seja, em situações nas quais o aluno não se sente ameaçado, envergonhado etc.

77 87 No caso da hipótese da primeira língua, o que ocorre é que o aprendiz de uma segunda língua procura preencher as lacunas daquilo que ainda não consegue produzir e, aos poucos, por meio do monitoramento, ele corrige os erros e substitui as palavras; desse modo, o aprendiz apresenta desempenho, mas não desenvolve competência na língua. Por último, há variação individual no uso do monitoramento. Isso significa que alguns alunos monitoram muito e, por insegurança, não conseguem se comunicar, pois interrompem o fluxo da conversa com correções o tempo todo, enquanto outros preocupam-se mais com o andamento da conversa e da mensagem, apresentando maior fluência. Sem dúvida, muitas dessas hipóteses são válidas em determinadas situações, mas, no entanto, elas não levam em consideração o que se pode aprender com o outro e separam a forma do conteúdo. Em nossa proposta de atividades de ensino, consideramos que o aluno aprende uma língua ao interagir com outros falantes, com seu material didático e com os conteúdos propostos em determinado contexto situacional. Além disso, como, segundo nossa visão de linguagem, a forma e o conteúdo andam juntos, não haveria porque o aluno concentrar-se em um ou outro. Acreditamos que, ao aprender uma língua por meio de padrões de uso da linguagem e em um contexto, a forma e o conteúdo são observados juntos e, de acordo com a situação, o aluno pode fazer determinadas escolhas em detrimento de outras O ensino comunicativo O ensino comunicativo dominou (e ainda domina, em alguns casos) o cenário do ensino de línguas durante as décadas de 1980 e A proposta do ensino comunicativo era a de que as atividades desenvolvidas em sala de aula, denominadas tarefas comunicativas, devem criar situações nas quais os alunos negociem a linguagem a ser utilizada para resolver determinado problema e obter certo resultado (WILLIS; WILLIS, 2001; CANALE, 1983; NUNAN, 1989). No ensino comunicativo, o trabalho do professor é fornecer a linguagem necessária para que o aluno possa realizar as tarefas propostas e, pouco a pouco, adquirir a língua. Desse modo, em vez de preocupar-se com a estrutura da língua (gramática), o aprendiz foca a possibilidade de comunicar-se. Segundo Canale (1983, p. 4, tradução nossa), a comunicação é entendida

78 88 como uma troca e negociação de informação entre pelo menos dois indivíduos, através do uso de símbolos verbais e não verbais. Dada essa definição, espera-se que o aprendiz de uma língua, quando não souber dizer algo, expresse-se por meio de mímica, gestos ou outros recursos para preencher lacunas, como nas hipóteses de Krashen (1982). Diversos estudos apresentam propostas de tarefas comunicativas, no entanto, foi observado que o aluno leva muito tempo para conseguir falar de modo apropriado ao contexto de uso da língua que estuda, o que, em algumas ocasiões, dificulta sua comunicação. A crítica, aqui, é a mesma feita às hipóteses de Krashen (1982), ou seja, entendemos que, nas tarefas propostas, a forma, o conteúdo e o contexto de uso devem estar juntos O aprendizado consciente Mais recentemente, passou-se a acreditar que uma língua é aprendida por meio da interação com o ambiente, com o outro, com o material didático etc. Na concepção de Lev Vygotsky (LANTOLF; APPEL, 1994), o que nos torna humanos e nos diferencia dos demais animais é o pensamento consciente, assim, ele não acreditava na aquisição de um comportamento ou linguagem, mas, sim, acreditava que a linguagem é aprendida por meio da interação social (com o ambiente, com o outro etc.) e que, primeiro, ela exerce influência sobre nosso pensamento e, então, é influenciada por nós, dependendo de nossas escolhas e do uso que fazemos dela. Ao contrário da noção de monitoramento e aquisição de Krashen (1982), Lev Vygotsky acreditava que uma língua era aprendida conscientemente porque é a consciência que nos dá as prerrogativas de planejar, ter atenção voluntária, memória lógica, capacidade para resolução de problemas e avaliação. Assim, se a língua fosse adquirida inconscientemente, não seríamos capazes de fazer escolhas quanto ao seu uso de acordo com um contexto de situação e de acordo com nossas necessidades. Não saberíamos, por exemplo, como nos comunicamos de uma forma em um bate-papo entre amigos e de outra em uma reunião de negócios. Considerando a noção de linguagem apresentada nesta tese, ou seja, de que quando nos comunicamos fazemos escolhas de acordo com padrões de linguagem que imprimem determinado significado ao texto, acreditamos que uma língua deve ser aprendida conscientemente e de modo que sejamos capazes de notar quando e

79 89 como utilizar esta ou aquela forma de linguagem, segundo a necessidade do falante. No próximo capítulo, apresentamos a metodologia empregada nesta pesquisa.

80 90

81 91 3 METODOLOGIA Partindo do pressuposto de que os textos argumentativos escritos por alunos de inglês variam e que essa variação pode ser explicada e ensinada, esta tese tem dois objetivos distintos: 1. Por um lado, averiguar como as redações de alunos de inglês de 18 origens diferentes variam em relação às dimensões do inglês (BIBER, 1988) e em suas próprias dimensões; 2. Por outro lado, explorar os resultados obtidos para propor sua aplicação em atividades didáticas. Assim, retomamos, aqui, as perguntas desta pesquisa: 1. Como as redações de aprendizes de inglês de 18 origens diferentes e de estudantes nativos variam em relação às dimensões do inglês descritas por Biber (1988)? 2. Quais são as dimensões de variação específicas dos corpora de aprendizes? 3. Dados os resultados obtidos na análise multidimensional (AMD) dos corpora de aprendizes, como e quais conteúdos podem ser extraídos para aplicação em atividades didáticas? Este capítulo contém: a) a descrição dos corpora utilizados; b) a descrição dos programas computacionais utilizados; c) a descrição dos procedimentos para o mapeamento das dimensões de Biber (1988) e dos procedimentos para a fatoração e interpretação das redações de alunos de inglês; e, por fim, d) a descrição dos procedimentos e dos critérios adotados para a aplicação dos resultados obtidos por meio da AMD de corpora de aprendizes à seleção de conteúdos e ao desenvolvimento das atividades didáticas propostas Descrição dos corpora O corpus constitui a alma dos estudos em Linguística de Corpus (LC),

82 92 Linguística de Corpus de Aprendiz (LCA) e Análise Multidimensional (AMD). É a partir do corpus que os dados linguísticos que estudamos são obtidos, por exemplo, na LC e LCA, a frequência e os padrões de uso das palavras e na AMD a frequência das características linguísticas, a quantificação das variáveis e a correlação entre elas, que possibilitam o estudo da variação. Desse modo, os corpora assumem posição de destaque na metodologia de quaisquer estudos realizados nessas áreas. Corpus pode ser definido como um conjunto de textos coletados de acordo com o propósito da pesquisa, segundo critérios situados e em formato digital, isto é, passível de leitura e análise por meio de programas computacionais. Nesta pesquisa, utilizamos 3 corpora de estudo, quais sejam: a) o International Corpus of Learner English (ICLE); b) o Brazilian International Corpus of Learner English (BrICLE); e c) o Louvain Corpus of Native English Essays (LOCNESS). Os corpora de estudo foram analisados para investigar a variação linguística das redações de alunos de inglês; os resultados obtidos proporcionaram pistas para o ensino da variação em textos argumentativos. Também foi utilizado um corpus de referência, o Corpus of Contemporary American English (COCA), cuja função, nesta pesquisa, é fornecer exemplos dos padrões linguísticos observados nas redações, para uso nas atividades de ensino da variação. Optamos por utilizar um corpus de referência junto com os corpora de estudo porque sua extensão é maior e isso aumenta a probabilidade de encontrar exemplos dos padrões que se almeja incluir nas atividades didáticas Corpora de estudo Nesta tese, utilizamos como corpora de estudo o ICLE, o BrICLE e o LOCNESS. O ICLE faz parte de um projeto criado por Sylvianne Granger (precursora da LCA), na Universidade Católica de Louvain (Bélgica), e envolve a coleta de redações de estudantes de inglês de nível avançado para uso em pesquisas de LCA. O ICLE conta com redações de estudantes de 17 origens diferentes, quais sejam: Alemanha, Bulgária, Botswana (África do Sul), China (Hong Kong), China (UK), Espanha, Finlândia, França, Holanda, Itália, Japão, Noruega, Polônia, República Tcheca, Rússia, Suécia e Turquia. As redações coletadas seguem 5 critérios principais:

83 93 1. As redações devem ser escritas por aprendizes de inglês; 2. Os aprendizes devem ser considerados de nível avançado; 3. As redações devem discorrer sobre um dos temas propostos; 4. As redações devem ser argumentativas; e 5. As redações devem conter cerca de 500 palavras. Atualmente, o ICLE conta com cerca de palavras. Além dos 17 subcorpora que fazem parte do projeto, também utilizamos redações do BrICLE, que é a vertente brasileira do ICLE. O BrICLE é um corpus ainda em formação. Um dado relevante a respeito do BrICLE é que suas redações têm sido coletadas em diferentes estados e cidades do Brasil, assim, os textos estudados abrangem alunos brasileiros de inglês com diferentes contextos culturais e educacionais. O BrICLE conta com mais de 270 redações e cerca de palavras. O LOCNESS é um corpus de redações escritas por falantes nativos de inglês e conta com cerca de palavras de redações com nota A de alunos britânicos; cerca de palavras de redações de estudantes universitários britânicos; e cerca de palavras de redações de alunos universitários americanos, totalizando aproximadamente palavras. Esse corpus foi compilado por Sylvianne Granger com o intuito de servir como corpus comparável ao ICLE, porém, suas redações não seguem os mesmos temas do ICLE. As redações com nota A mencionadas acima são de alunos do nível equivalente ao Ensino Médio brasileiro e não de alunos universitários, como o restante do corpus (e como o ICLE), por isso, essas redações não foram utilizadas e, consequentemente, o corpus totalizou cerca de palavras e mais de 290 textos. A Tabela 3.1 resume os dados dos subcorpora de estudo. Os subcorpora selecionados formam, em combinação, um corpus de tamanho médio-grande (BERBER SARDINHA, 2004), totalizando palavras; eles se adéquam às necessidades desta pesquisa porque, desde o estudo piloto, observamos que eram representativos da variação linguística. Além dos corpora de aprendiz, foco desta tese, acreditamos ser significativo recorrer a um corpus de referência na seleção de amostras de características linguísticas para o ensino dos padrões em questão. Assim, descrevemos a seguir o corpus de referência adotado.

84 94 Tabela 3.1 Subcorpora de estudo N Subcorpus Número de palavras Textos 1. Alemanha Bulgária Botswana (África do Sul) Brasil China (Hong Kong) China (UK) Espanha Finlândia França Holanda Itália LOCNESS (UK, US) Japão Noruega Polônia República Tcheca Rússia Suécia Turquia Total Fonte: Elaborada pela autora Corpus de referência Adotamos o COCA como referência para esta pesquisa. Optamos por trabalhar com ele porque é extenso, representa diferentes registros do inglês americano e é utilizado com frequência como referência em pesquisas que envolvem o inglês. O COCA é constantemente alimentado, o que o torna mais atualizado que outros corpora de referência de grande porte. Outra vantagem é o fato de ser um

85 95 corpus on-line de acesso gratuito 2 e apresentar diversos registros, classificados por data de coleta e tipo, quais sejam: a) falado; b) ficção; c) revista; d) jornal; e e) acadêmico. Desse modo, o pesquisador pode realizar buscas em diferentes registros de épocas distintas ou em todos eles de uma vez, de acordo com sua necessidade. O COCA também disponibiliza ferramentas de busca que possibilitam encontrar concordâncias de palavras isoladamente ou em colocações e, ainda, por classe gramatical em inglês, part of speech (POS) (figuras 3.1 e 3.2). O número de palavras dos registros do COCA são divididos da seguinte forma: Falado: palavras transcritas de conversas de radio ou TV; Ficção: palavras de histórias curtas, peças e revistas literárias; Revistas: palavras retiradas de 100 revistas populares; Jornais: palavras retiradas de 10 jornais dos EUA; Artigos acadêmicos: palavras obtidas de 100 periódicos científicos. Devido à diversidade de textos, seu grande porte e sua constante atualização, o COCA serve às pesquisas como importante fonte de referência, conferindo maior confiabilidade aos resultados obtidos. O COCA é utilizado nesta tese como fonte de concordâncias representativas dos padrões léxico-gramaticais que almejamos utilizar em atividades para ensinar alunos de inglês a variar sua escrita em textos (argumentativos). Além das ferramentas do COCA, utilizamos outros programas computacionais. Para identificar as dimensões de variação das redações foi necessário etiquetar os corpora de estudo, o que fizemos com o etiquetador Biber Tagger, e para quantificar e agrupar as variáveis utilizadas em nossa pesquisa, utilizamos o etiquetador Biber Tag Count. Para analisar, correlacionar as variáveis obtidas e realizar a análise fatorial propriamente dita, após a etiquetagem, trabalhamos com o programa IBM SPSS Statistics (SPSS), versão 20. Descrevemos a seguir as características desses programas e indicamos como foram utilizados. 2. Disponível em: Acesso em: 27 ago

86 96 Figura 3.1. Amostra de concordância no COCA: red socks. Fonte: Elaborada pela autora. Figura 3.2. A ferramenta Keyword in Context do COCA. Fonte: Elaborada pela autora.

87 Descrição dos programas computacionais utilizados O uso de programas computacionais para análise linguística não é uma novidade e ele vem se popularizando cada vez mais, principalmente, por conta da disponibilização de ferramentas on-line e de sua rapidez e eficácia para lidar com grandes quantidades de dados, devido à maior capacidade de processamento dos computadores atuais. Cada vez mais, mais pessoas, em especial os pesquisadores, obtêm resultados satisfatórios com esses recursos, tornando-os praticamente obrigatórios para fins de pesquisa. A utilização de programas computacionais, de fato, constitui uma conditio sine qua non em nesta tese. Utilizamos o SPSS para efetuar cálculos estatísticos de correlação de variáveis; recorremos ao Biber Tagger para a anotação de milhões de palavras com etiquetas que mostram a classe gramatical à qual cada palavra pertence; o Biber Tag Count proporciona o agrupamento e a contagem de etiquetas; e o WordSmith Tools exibe exemplos de uso de uma palavra de busca. Esses feitos são virtualmente impossíveis de ser alcançados de modo manual; além disso, apenas os recursos computacionais mostram-se confiáveis, por conta de sua sistematização. A seguir, indicamos como esses programas funcionam, para que servem e como são utilizados nesta pesquisa IBM SPSS Statistics, versão 20 O SPSS é um dos programas mais utilizados no mundo para resolver dificuldades com cálculos estatísticos que envolvem um grande número de variáveis em pesquisa, testar hipóteses e prever a significação de algumas associações e correlações entre variáveis. Assim, trata-se de uma ferramenta utilizada em pesquisa devido ao grande número de possibilidades de análise e à exatidão dos resultados apresentados. Apresentamos, aqui, uma breve descrição do SPSS, com base em Field (2009), e de seu funcionamento em relação a esta pesquisa As janelas O programa utiliza duas janelas principais, a do editor de dados e a do visualizador. No editor de dados, carregamos os dados e executamos as funções estatísticas, por meio do menu acima do quadro, enquanto que no visualizador

88 98 observamos os resultados obtidos (figuras 3.3 e 3.4). Figura 3.3. Editor de dados do SPSS. Fonte: Elaborada pela autora. Figura 3.4. Visualizador do SPSS. Fonte: Elaborada pela autora.

89 O menu da tecla analisar Na janela do editor de dados, no menu, há uma tecla denominada analisar ; entre as opções do menu dessa tecla encontram-se todos os procedimentos estatísticos disponibilizados pelo programa. Em nossa pesquisa, utilizamos o redutor de dimensão para chegar ao número de fatores a ser analisados, a estatística descritiva para padronizar as variáveis (escores Z) e o modelo linear geral para determinar a variância entre os fatores e as redações dos subcorpora dos diferentes países. O redutor de dimensão possibilita identificar o número ideal de fatores interpretados como dimensões. Biber (1988), por exemplo, encontrou inicialmente 7 fatores e, mais tarde, passou a utilizar apenas 5, pois notou que 5 fatores respondiam pela variação de modo mais preciso. Aqui, utilizamos como apoio um gráfico de sedimentação, que mostra em qual ponto os fatores passam a responder pouco pela variação, sugerindo o número ideal de fatores. O gráfico de sedimentação, em geral, é solicitado quando já reduzimos as dimensões e encontrase disponível no caminho analisar, redução do fator, fator, extração e diagrama de sedimentação. A estatística descritiva serve para determinar medidas descritivas, frequências e exploração geral dos dados. Aqui, foi utilizada para criar os escores Z das variáveis, obtendo a distribuição estatística das variáveis em cada texto, o que possibilita determinar o peso destas em relação a cada fator em cada texto. Após a redução e transformação dos fatores (na tecla transformar ), utilizamos novamente o menu de analisar para investigar a variância entre as redações de subcorpora de diferentes países, escolhendo, dessa vez, o modelo linear geral. Nesse menu, como única variável. Esse cálculo gera uma tabela com a distribuição dos subcorpora dos países ao longo do fator O menu da tecla transformar O menu dessa tecla é utilizado, em geral, para o cálculo das variáveis, ou seja, uma vez encontrado o número ideal de fatores e as variáveis (características linguísticas) que formam cada fator, é necessário transformar as variáveis em um fator. Para tanto, denominamos o fator, escolhemos as variáveis (já com seus

90 100 escores Z calculados) que formam o fator e escrevemos a fórmula na caixa destinada a isso. Se a operação for realizada adequadamente, pode-se observar o fator na janela do visualizador. Todo esse processo, no entanto, depende dos dados que compõem as variáveis. No caso de uma pesquisa linguística, como esta, os dados são características linguísticas obtidas por meio da etiquetagem dos corpora e da contagem das etiquetas para cada característica, o que é realizado por um programa de etiquetagem e outro que agrupas as características; para isso, adotamos o Biber Tagger e o Biber Tag Count, pelas razões expostas a seguir O Bibber Tagger e a etiquetagem O programa de etiquetagem é utilizado em pesquisa linguística para inserir etiquetas ao lado de cada palavra do corpus, com informações acerca de sua classificação morfológica, sintática e/ou semântica, em geral, para facilitar a análise. Além de os programas apresentarem a possibilidade de marcar o texto morfológica, sintática e semanticamente, eles são capazes de acrescentar marcação discursiva (CONDI DE SOUZA, 2012). O modo como o texto etiquetado é disponibilizado pelo programa varia muito e, por isso, o pesquisador deve ficar atento às necessidades de sua pesquisa. Indicamos a seguir como alguns etiquetadores disponibilizam resultados e como se apresentam as etiquetas do Biber Tagger. O etiquetador Visual Interactive Syntax Learning (VISL), por exemplo, disponibiliza os textos em estrutura simples (flat) (Quadro 3.1). Quadro 3.1 Amostra de etiquetagem do VISL <dt>i [I] PERS 1S #1->2believe [believe] <mv> V PR #2->.0love [love] N S Fonte: Elaborado pela autora. O Tree Tagger disponibiliza o texto marcado com as palavras uma abaixo da outra (Quadro 3.2).

91 101 Quadro 3.2 Amostra de etiquetagem do Tree Tagger I PP I believe VVP believe Love NN Love Fonte: Elaborado pela autora. O Biber Tagger também disponibiliza o texto com as palavras uma abaixo da outra, no entanto, as etiquetas e tipo de marcação diferem (Quadro 3.3). Quadro 3.3 Amostra de etiquetagem do Biber Tagger I ^pp1a+pp1+++=i believe ^vb+vprv+++=believe love ^nn++++=love Fonte: Elaborado pela autora. Como é possível observar nos exemplos, não só a apresentação do texto varia, mas, também, as etiquetas; o verbo believe no VISL recebeu a etiqueta V PR, no Tree Tagger VVP e no Biber Tagger vb+vprv. Assim, é necessário ter cautela ao utilizar as etiquetas, que devem ser interpretadas de acordo como o grupo de etiquetas (tagset) de cada etiquetador. As etiquetas inseridas pelos programas não variam apenas no nome ou código, na maioria dos casos, a quantidade de etiquetas também varia, o que pode vir a se tornar um problema, como em nossa pesquisa piloto. No início da pesquisa, tentarmos etiquetar os corpora com o Tree Tagger, que traz um tagset menor que o do Biber Tagger e, também, menos específico (algumas etiquetas servem para preposições e conjunções ao mesmo tempo); obtivemos uma quantidade menor de variáveis, o que ocasionou menor variação (às vezes, nenhuma) nos textos estudados e, nas primeiras tentativas, inclusive impossibilidade de interpretação das características dos fatores obtidos. Para evitar que o problema se repetisse na análise final, trabalhamos com o Biber Tagger; este, segundo Quaglio (2008, p. 195), etiqueta os textos com mais de 100 características linguísticas diferentes ou uma combinação de itens lexicais e características gramaticais. Além de ter um número abrangente de etiquetas, o

92 102 Biber Tagger foi desenvolvido para pesquisas como esta, e também foi utilizado na maioria dos estudos nos quais baseamos o nosso, portanto, mostra-se o etiquetador ideal para esta tese. O Biber Tagger marca o texto para características morfossintáticas e pode ser lido do seguinte modo, tomando como exemplo a palavra believe, mostrada acima com as etiquetas: o símbolo ^ indica o início da etiqueta e vem logo após a palavra que está sendo etiquetada. Na sequência, ocorre a primeira marcação vb, que indica que essa palavra é um verbo, então, ocorre a etiqueta vprv, que explicita que believe é um verbo de cognição, o que ajuda bastante saber no momento da interpretação dos fatores. Após essa marcação, ocorre o símbolo + indicando a separação de campos da etiqueta e o símbolo = seguido pelas palavras do texto em si (CONDI DE SOUZA, 2012). As etiquetas do Biber Tagger que aparecem nesta pesquisa são apresentadas integralmente no Anexo 3. As etiquetas podem ser utilizadas de diversos modos em pesquisas em LC; destacamos dois deles: a) como palavra de busca; e b) como dado estatístico de uma variável. Como palavra de busca, elas podem ser utilizadas por meio de um programa como o WordSmith Tools, com sua ferramenta Concord, para identificar linhas de concordância de determinadas partes do discurso (classes gramaticais), como realizado por Delegá-Lucio (2006). Utilizar a etiqueta como palavra de busca é um dos procedimentos adotados para extrair padrões de uso de linguagem para as atividades que propomos nesta tese. Como dado estatístico de uma variável, envolve a obtenção de dados estatísticos relativos ao número de características que ocorrem em um texto ou em um corpus. Esses dados podem ser obtidos por meio de um programa, como o próprio Wordsmith Tools, com a ferramenta WordList. Outro programa utilizado que se relaciona com a etiquetagem agrupando e quantificando características linguísticas é o Biber Tag Count, também utilizado nesta pesquisa e descrito a seguir O Biber Tag Count O Biber Tag Count é um processador de dados cuja função é agrupar e quantificar as características lexicais observadas em um corpus. Sua função foi descrita por Condi de Souza (2012, p. 131) da seguinte forma:

93 103 O programa Biber Tag Count etiqueta as características lexicais relacionadas a posicionamento e a tipos de verbos e de substantivos e considera as etiquetas do Biber Tagger, contabilizando todas as etiquetas como variáveis e agrupando-as em categorias morfossintáticas, semânticas ou de marcação de posicionamento. O tipo de cômputo realizado pelo Biber Tag Count complementa a etiquetagem do Biber Tagger e fornece os dados estatísticos necessários para a análise no programa estatístico SPSS. Essa função do Biber Tag Count é justamente a que serviu a esta pesquisa, possibilitando a quantificação das variáveis linguísticas das redações de aprendizes de inglês, tanto para o mapeamento de acordo com as dimensões do inglês (BIBER, 1988) como para a identificação das dimensões. Os arquivos disponibilizados por esse programa encontram-se em formato SAS (formam várias colunas com as contagens); para utilizar os resultados, adotamos um script de programação para converter estes dados e adequá-los ao uso em planilhas do programa Microsoft Excel. A seguir, descrevemos o programa WordSmith Tools (SCOTT, 1997) e sua função nesta pesquisa O WordSmith Tools O programa Wordsmith Tools (SCOTT, 1997) constitui um grupo integrado de ferramentas muito presente na pesquisa linguística por conta de seu caráter user friendly e porque possibilita analisar corpora de diversas formas: por meio de dados estatísticos e listas de palavras, com o WordList, por meio de concordância, colocações e agrupamentos de palavras (chunks), com o Concord e por meio de palavras-chave, com o Keyword. O WordSmith Tools encontra-se, atualmente, em sua versão 6, no entanto, a mais utilizada para fins de pesquisa e a mais descrita para tanto é a versão 3. Por isso, utilizamos a versão mais antiga que, embora mais limitada em termos de número de concordâncias (gera, no máximo, linhas), mostra-se mais estável. Berber Sardinha (2010) propôs diversas formas de utilizar essa versão na pesquisa linguística voltada ao ensino, à linguística forense, à metáfora, à análise de gênero e à tradução, mostrando, assim, sua versatilidade. As análise realizadas com o WordSmith Tools são baseadas na frequência de palavras em um corpus e em sua

94 104 co-ocorrência. O WordList é uma das ferramentas disponibilizadas pelo WordSmith Tools; grosso modo, sua função é calcular o número total de palavras (tokens) de um corpus e seu número de itens (types), além de outras informações sobre o corpus, como, por exemplo, o valor da razão/forma (type token ratio), que tem a ver com a densidade lexical dos textos. Além disso, sempre que processamos uma lista de palavras, obtemos mais duas janelas: além da estatística, há uma lista de todas as palavras do corpus em ordem alfabética, com sua frequência ao lado, e outra em ordem de frequência. Assim, se almejamos descobrir a frequência de uma palavra em um corpus, podemos processar uma lista de palavras no programa e verificar os dados relativos a ela. O Keyword é uma ferramenta que utiliza duas listas de palavras para comparálas e, então, disponibilizar resultados acerca de quais palavras são consideradas chave em um texto. Assim, para utilizá-lo é necessário gerar duas listas de palavras, uma com o corpus que se almeja analisar e outra com um corpus geral, de grande porte, de referência. Carregam-se as listas na ferramenta, que compara suas frequências e verifica quais palavras aparecem com maior frequência no corpus em análise do que no de referência: eis as denominadas palavras-chave. Concord é uma ferramenta que possibilita obter linhas de concordância ao alimentar o programa com um corpus e selecionar uma palavra para visualização em contexto, a denominada palavra de busca, ou nódulo. A grande vantagem do Concord em relação a mecanismos disponíveis on-line, como o Lextutor, é que ele possibilita a reorganização dos dados para facilitar o reconhecimento de padrões linguísticos e a compreensão do significado imposto por esse padrão. Além disso, a partir das concordâncias geradas, podemos solicitar que a ferramenta identifique as colocações da palavra de busca e os agrupamentos de palavras, denominados, em inglês, chunks ou lexical bundles. Assim como as concordâncias, as colocações podem ser ajustadas para mostrar os colocados à direita ou à esquerda da palavra de busca e a frequência com que se colocam. Em nossa pesquisa, o Concord aparece em dois momentos: primeiro, com o corpus etiquetado para uso das etiquetas de características linguísticas como palavras de busca e, desse modo, por meio das colocações dessas etiquetas, averiguar as palavras mais frequentes; segundo, após haver encontrado as palavras mais frequentes que acompanhavam as etiquetas, o Concord foi utilizado para fazer um levantamento das colocações

95 105 dessas palavras e selecionar as palavras de busca no corpus de referência. As ferramentas apresentadas acima foram utilizadas para operacionalizar os procedimentos descritos a seguir; sem elas, esta pesquisa seria inviável. Mesmo com tantas ferramentas disponíveis para assistir o trabalho do pesquisador, as pesquisas em LC dependem primordialmente da metodologia adotada pelo pesquisador, para que os dados quantitativos proporcionem uma correlação significativa com a interpretação qualitativa Procedimentos de análise Os procedimentos para realizar pesquisas em AMD são complexos, pois alterações na escolha do tipo de análise estatística no programa SPSS ou qualquer erro na contagem das características linguísticas ocasionam diferenças substanciais nos resultados. Portanto, buscamos adotar os procedimentos metodológicos mais adequados a esta pesquisa, visando a obter a maior precisão possível. Os procedimentos descritos a seguir dizem respeito aos três tipos de análise envolvidos, sendo os dois primeiros ligados à AMD e o terceiro ao modo como selecionar conteúdos a partir dos dois primeiros para produzir atividades didáticas para o ensino de variação na escrita argumentativa. Em relação ao primeiro procedimento, descrevemos como foi realizado o mapeamento das dimensões do inglês de Biber (1988); nele, nosso objetivo consistiu em verificar como as redações de aprendizes de inglês de diferentes origens variavam com relação às dimensões do inglês. Quanto ao segundo procedimento, descrevemos os passos seguidos para extrair as dimensões de variação das redações de alunos de inglês, averiguando quais são as características da escrita argumentativa do aprendiz e como ela varia. O terceiro procedimento envolve as análises necessárias para transformar os resultados da pesquisa em AMD em conteúdos de atividades didáticas para ensinar o aluno a variar sua escrita argumentativa Mapeamento das dimensões de Biber Pode-se dizer que o estudo de Biber (1988) resultou nas dimensões do inglês porque o pesquisador utilizou dois corpora do inglês britânico que abrangem

96 106 diversos gêneros e que se mostrou representativo do idioma para os fins do estudo. Um dos corpora foi o Lancaster-Oslo-Bergen (LOB), composto por 500 amostras de textos, cada uma com cerca de palavras, de 15 gêneros diferentes, tais como: reportagens, editoriais, resenhas, textos religiosos, textos relativos a habilidades e hobbies, biografias, documentos oficiais etc. O outro corpus foi o London-Lund Corpus of Spoken English (corpus de inglês falado), composto por 87 textos de inglês falado com palavras cada, que representa 6 situações principais: conversas particulares, conversas públicas entrevistas e debates, conversas telefônicas, transmissões de rádio, discursos espontâneos e discursos preparados. Os procedimentos adotados para realizar o mapeamento das dimensões de Biber (1988) diferem dos procedimentos para determinar as dimensões de variação de um corpus nos seguintes aspectos: a) fatoração, procedimento estatístico no qual características linguísticas são agrupadas (ou eliminadas) para encontrar o número de fatores a ser interpretados; b) gráfico de sedimentação, gerado após a fatoração inicial, que mostra o número de fatores que provavelmente melhor representa a variação nos corpora de estudo; e c) interpretação de fatores funcionalmente para nomear as dimensões de variação. Essa diferença ocorre porque as dimensões de variação do inglês nas quais essa parte do estudo se baseia já foram encontrados no estudo de Biber (1988), faltando portanto, apenas calcular a significância estatística da variação das dimensões. O cálculo da significância estatística é necessário para descobrir como as redações de alunos de inglês, com base na coocorrência de suas características linguísticas, distribuem-se nas dimensões de variação do inglês de acordo com a origem do aluno. A seguir, descrevemos o mapeamento das dimensões do inglês para as redações dos corpora de estudo. Os procedimentos para a análise dos corpora de estudo diferem dos adotados no estudo piloto somente em relação ao montante de dimensões utilizadas e ao tipo de etiquetador. Os passos da análise foram: Escolher os corpora; Etiquetar os corpora de estudo com o Biber Tagger e realizar o pósprocessamento com o Biber Tag Count; Calcular a significância estatística da variação (Anova e R 2 ) com o procedimento General Linear Model, Univariate, no SPSS. O procedimento 1 está descrito no item 3.1.1, onde descrevemos a escolha dos

97 107 corpora de estudo, quais sejam: o BrICLE, o ICLE e o LOCNESS. Para o procedimento 2, tínhamos todos os textos em formato.txt (texto sem formatação), que foram introduzidos no Biber Tagger e etiquetados clicando na tecla begin tagging (começar a etiquetar). Então, o resultado da etiquetagem foi apresentado em um arquivo de texto sem formatação, que foi inserido no Biber Tag Count. Neste programa, bastou introduzir os arquivos gerados pelo processamento no Biber Tagger e iniciar o programa. O documento resultante foi organizado em uma planilha do Microsoft Excel e introduzido no SPSS, para realizar o procedimento 3. Além de agrupar e realizar quantificação das características linguísticas dos textos, o Biber Tag Count conta e calcula esses itens linguísticos para as 5 dimensões do inglês, razão pela qual não são necessários os procedimentos relacionados à fatoração e interpretação de fatores Ao realizar o procedimento 3, determinamos a significância estatística das dimensões do inglês de Biber (1988) em relação às redações dos corpora de estudo. Para tanto, clicamos nas teclar analisar, depois modelo linear geral e, então, com uma única variável. Na caixa que se abre, escolhemos como variável dependente as dimensões, uma de cada vez, e como fator fixo escolhemos a origem (country no arquivo). Por conta do cálculo de significância estatística, conseguimos entender o quanto da variação é explicada pela origem do aluno. Por isso, temos como fator fixo aquele que acreditamos explicar a variação e como variável dependente o fator/dimensão que representa a variação. Nesse procedimento, também é importante selecionar no menu opções a tecla estatística descritiva. Desse modo, o programa gera uma tabela com os escores médios dos países ao longo de cada fator, que, no nosso caso, são as dimensões do inglês. Para facilitar a compreensão dos procedimentos adotados, apresentamos a seguir as definições de alguns termos essenciais. Os fatores mencionados ao longo desta pesquisa são descritos por Bértoli- Dutra (2010) como representativos dos agrupamentos de variáveis que co-ocorrem e cada fator corresponde à variação linguística observada no corpus analisado. Assim, quando um grupo de variáveis linguísticas co-ocorrem com frequência em um ou vários textos, mostrando-se correlacionados, eles são considerados um fator. No procedimento 3, o cálculo de significância estatística é realizado por meio de uma análise de variância denominada Anova. Segundo Field (2009, p. 300), essa análise é uma forma de comparar a razão entre a variância sistemática e a não

98 108 sistemática em um estudo experimental. Em outras palavras, averiguamos como um fator fixo se relaciona com os fatores dependentes do estudo. Ao realizar uma análise Anova obtemos, também, um resultado para R 2, que é definido por Field (2009, p. 143) como uma medida da quantidade de variação em uma variável que é explicada pela outra. Desse modo, os resultados obtidos nesta pesquisa indicam o quanto da variação observada em uma dimensão pode ser explicada pela origem do aluno de inglês. Pensando na próxima fase desta pesquisa, a da extração de fatores, temos duas diferenças mais significativas de procedimento: a primeira é que precisamos realizar a redução de dimensões para identificar o número ideal de fatores, as características linguísticas que o compõem e, então, gerar os fatores; a segunda é que, no último passo, é necessário interpretar os fatores funcionalmente de acordo com suas características para chegar às dimensões de variação. A redução das dimensões consiste em executar procedimentos estatísticos que diminuam e/ou agrupem variáveis, possibilitando identificar um número possível e interpretável de fatores que possam ser obtidos a partir dos dados (diferentes características linguísticas dos corpora). Assim, apresentamos a seguir os procedimentos para a extração de fatores para as dimensões de variação das redações Extração de fatores para as dimensões das redações No que diz respeito aos procedimentos dessa fase da pesquisa, os passos que se constituem como partes fundamentais da metodologia são: Escolher ou coletar um corpus apropriado à pesquisa que se almeja desenvolver; Identificar as características linguísticas a ser utilizadas na análise; Escolher ou desenvolver programas para análise automática e etiquetagem das características linguísticas identificadas; Etiquetar e contar as frequências das características linguísticas do corpus; Analisar a co-ocorrência de padrões linguísticos utilizando a análise fatorial; Interpretar funcionalmente os fatores para encontrar as dimensões de

99 109 variação subjacentes; Os escores das dimensões de cada texto em relação a cada dimensão são calculados e o escore médio das dimensões para cada registro são, então, comparados e analisados para averiguar as similaridades e diferenças. Seguindo os passos acima, trabalhamos com os corpora ICLE, BrICLE e LOCNESS (passo 1) pelas mesmas razões expostas anteriormente: os corpora foram coletados criteriosamente, são representativos da linguagem do aluno e os textos são argumentativos. Como já havíamos feito a etiquetagem e contagem das variáveis (passos 2, 3 e 4), que são as mesmas da primeira parte do estudo, por tratar dos mesmos corpora, utilizamos os dados já obtidos no mapeamento das dimensões de Biber (1988). No entanto, como nesse momento almejamos obter as dimensões de variação nas redações, precisamos determinar o número ideal de fatores (passo 5), por meio de uma redução de fatores, para, então, calcular os escores Z e realizar os demais procedimentos. Os escores Z, segundo Field (2009, p. 648), são variáveis padronizadas, o valor de uma observação expresso em unidades de desvios padrão. Assim, essas variáveis serão distribuídas de outro modo, com média 0 e desvio padrão 1. Esse procedimento é necessário para que possamos realizar nossos cálculos dentro de uma distribuição normal, o que possibilita determinar a probabilidade de determinado escore ocorrer em um conjunto de escores. Os escores Z, nesta pesquisa, representam a probabilidade de determinada característica linguística ocorrer em um conjunto de características. Primeiro, carregamos a tabela de variáveis, obtida a partir dos resultados gerados pelo Biber Tag Count, no SPSS e, em seguida, realizamos uma primeira extração. Para tanto, selecionamos no menu o item analisar, depois redução de dimensão e, por último, fator. Na caixa que se abre, selecionamos todas as variáveis (exceto o filename e country, por ser variáveis fixas). Nos demais itens selecionamos: Descritivo: clicamos em solução inicial ; Extração: clicamos em fatoração do eixo principal e solução de fator não rotacionado. Esse procedimento foi repetido outras 4 vezes e a cada vez eliminamos

100 110 variáveis que continham escores < 0,2 ou > 1,0. Na 5ª extração, obtivemos as comunalidades e geramos um diagrama de sedimentação para averiguar o número de fatores com o qual trabalharíamos. As comunalidades são, segundo Condi de Souza (2010, p. 160) uma proporção indicativa da correlação entre uma variável e as demais. Desse modo, as características linguísticas observada em cada fator têm variância correlacionada. Quando obtemos as comunalidades, podemos gerar no programa um diagrama de sedimentação (scree plot, em inglês) que possibilita determinar o número ideal de fatores para o estudo. Observando o diagrama de sedimentação, notamos que o número mais apropriado de fatores é 4. Assim, passamos para a extração dos fatores seguindo os procedimentos indicados, dessa vez, no entanto, em extração selecionamos solução de fator rotacionado, sem o diagrama de sedimentação, e clicamos em número de fatores fixo ; ali, preenchemos a caixa com o número 4 escolhido. O passo 6 consiste em escolher as variáveis que devem permanecer em cada fator. Assim, ao examinar a tabela de comunalidades obtida na última extração (Anexo 2), mantivemos as variáveis com os valores mais altos para cada fator e, quando uma mesma variável apresentava valores altos em dois fatores, essa variável foi mantida no fator em que seu valor era mais alto; assim, para exemplificar, se a variável factadvl (advérbios factíveis) apresentar escore de 0,469 no Fator 1 e 0,440 no Fator 3, ela é eliminada do Fator 3, permanecendo somente no Fator 1. Após a escolha das variáveis de cada fator, interpretamos cada um para definir qual é a dimensão de variação subjacente (passo 7). Nesta pesquisa, cada dimensão indica a variação nos textos argumentativos de alunos de inglês de nível avançado. Em seguida, calculamos os escores Z das variáveis, extraindo os fatores e, então, averiguando a distribuição das redações por origem ao longo das dimensões, novamente por meio de uma análise Anova. Os resultados disponibilizados mostram como a variação ocorre ao longo de dois polos distintos. Os polos representam as duas pontas funcionalmente características de uma dimensão de variação, dentro e ao longo dos quais um texto pode variar. Portanto, se uma dimensão é denominada fala informal no polo positivo x escrita informacional no polo negativo, isso significa que os textos no polo positivo estão ligados à fala informal e os do polo negativo à escrita informacional. Com os resultados obtidos em ambas as partes da pesquisa, ou seja, a

101 111 variação das redações de acordo com as dimensões do inglês e a extração de dimensões das redações, temos em mãos dados relativos ao modo como a escrita de alunos varia sistematicamente, ou seja, as características linguísticas que fazem com que o texto do aluno pertença a uma dimensão ou a outra (p. ex., mais elaborado ou mais narrativo). Assim, de acordo com a distribuição desses textos ao longo da dimensão, eles realizam determinada função, o que ocorre e é determinado pela presença e correlação entre as características linguísticas de dada dimensão. Como essa variação mostra-se sistemática, acreditamos ser possível ensiná-la partindo das características linguísticas correlacionais das nas dimensões e utilizando ferramentas computacionais para obter concordâncias e excertos de textos que mostrem os padrões linguísticos formados pelas características selecionadas. Esses procedimentos são listados e discutidos a seguir Seleção de conteúdos das atividades didáticas e critérios adotados A aplicação de resultados de pesquisa costuma mostrar-se complexa porque, de modo geral, esses resultados não são apresentados com sugestões de procedimento para uso prático. Em muitos casos, sugere-se utilizar os resultados ou realizar uma nova pesquisa do mesmo tipo, para informar atividades didáticas, mas não como extrair daqueles resultados o conteúdo para desenvolver as atividades. Do modo como é posto, em geral, na discussão ou conclusão das pesquisas, aparentemente, basta transpor o resultado para a atividade automaticamente, o que acreditamos não ser verdadeiro em todos os casos. É necessário adotar um bom número de procedimentos para identificar os conteúdos que vão informar a atividade e, então, construí-la como listamos abaixo, em passos: Fazer um levantamento das características linguísticas presentes nos polos de cada dimensão e suas respectivas etiquetas, bem como de redações com escores altos para esses mesmos polos e características. A partir das etiquetas das características linguísticas, trabalhando com os textos etiquetados e utilizando as ferramentas WordList e Concord, do programa WordSmith Tools, averiguar a frequência dos itens de interesse e obter concordâncias para examinar padrões e selecionar palavras, colocações e coligações recorrentes.

102 112 A partir dos conteúdos selecionados, utilizando as ferramentas de busca do COCA, obter exemplos para trabalhar nas atividades de conscientização, detalhamento e aplicação. Adequar os conteúdos à estrutura e ao quadro conceitual da atividade. O primeiro passo consiste em separar as características linguísticas pertencentes às dimensões que almeja trabalhar. Nos resultados desta pesquisa, apresentamos atividades para ensinar o aluno a variar o texto de acordo como os polos da dimensão 1 das redações, no entanto, aqui, apenas para exemplificar, trabalhamos com as características do polo da argumentação explícita no mapeamento das dimensões do inglês (dimensão 4). Por tratar da persuasão, as características linguísticas desse polo são relevantes na escrita argumentativa e, por isso, podem ser utilizadas em atividades para ensinar o aluno a escrever de modo mais persuasivo. Assim, as características linguísticas pertencentes a essa dimensão são selecionadas para ilustrar os procedimentos aqui descritos. O segundo passo consiste em compilar as características selecionadas por dimensão e as etiquetas que correspondem a elas (para uso no WordSmith Tools como palavra de busca). Em nosso caso, para ensinar as características da persuasão, trabalhamos com: verbos no infinitivo, verbos modais de antecipação (will, would, shall), verbos suasivos (insist, propose), conjunções subordinativas condicionais, verbos modais de necessidade (should, must), advérbio encaixado no auxiliar e verbos modais de possibilidade (can, may, might). Ao mesmo tempo, em uma tabela com a informação dos escores por dimensão e por redação, selecionamos textos com escores altos no polo escolhido (da persuasão explícita) para servir como exemplo em algumas atividades (p. ex., de conscientização e aplicação). Essa tabela (figuras 3.5 e 3.6) é obtida copiando do editor de dados do SPSS para uma planilha do Microsoft Excel a coluna com os códigos das redações e, em seguida, a coluna com os escores das dimensões. Em seguida, organizamos os dados em valores do maior para o menor, utilizando o filtro do Microsoft Excel. Assim, em uma ponta da tabela temos as redações com os escores positivos mais altos e na outra aquelas com os mais baixos.

103 113 Figura 3.5. Escore positivo. Fonte: Elaborada pela autora.

104 114 Figura 3.6. Escore negativo. Fonte: Elaborada pela autora. Selecionamos os escores altos (valores mais extremos) porque, neles, as características linguísticas são mais marcadas, o que facilita seu reconhecimento pelo aluno em atividades de noticing (perceber diferenças). No entanto, dependo do propósito da atividade, é possível selecionar textos próximos ao escore 0, pois esses textos tendem a ser mais balanceados. Vale lembrar que, no caso da dimensão 4 do inglês (que utilizamos para demonstrar os procedimentos), não há polo negativo, o que pode ocorrer em outras dimensões e em outros estudos, no entanto, identificamos redações com valores negativos. Isso significa que as redações com tais escores apresentam poucas características típicas da dimensão. Com os códigos dos textos (p. ex., trke2067, o primeiro da Figura 3.5) foi

105 115 possível selecionar em nosso banco de dados (do BrICLE, ICLE e LOCNESS) as redações para as amostras. Com as características linguísticas e suas etiquetas (p. ex., md+nec = verbo modal de necessidade), selecionamos as palavras de busca para identificar exemplos de seu uso nos textos. Com essas informações em mãos, estamos prontos para iniciar o quarto passo. O terceiro passo não se mostra um procedimento complexo, no entanto, é trabalhoso e demanda um pouco mais de tempo. No programa WordSmith Tools, selecionamos todos os textos etiquetados de nossos corpora para ser analisados, clicando em file e, então, choose texts (Figura 3.7). Figura 3.7. Seleção de textos no WordSmith Tools. Fonte: Elaborada pela autora. Uma vez selecionados os textos (etiquetados) com a ferramenta WordList em tools (ferramentas), solicitamos uma lista de palavras clicando em start (começar) e, então, make a wordlist (fazer uma lista de palavras) (Figura 3.8).

106 116 Figura 3.8. WordList no WordSmith Tools. Fonte: Elaborada pela autora. O WordList disponibiliza resultados em três janelas, uma com dados estatísticos, outra com as palavras do corpus organizadas em ordem alfabética, com suas respectivas frequências, e a terceira organizada em ordem de frequência. Como utilizamos as etiquetas dos textos como palavras de busca, podemos utilizar qualquer das duas janelas com os dados de frequência (Figura 3.9).

107 117 Figura 3.9. Janelas do WordList no WordSmith Tools. Fonte: Elaborada pela autora. Precisamos determinar o número de ocorrências das etiquetas porque, como a versão 3 do WordSmith Tools apresenta o máximo de linhas de concordância, é necessário identificar a frequência da palavra de busca para organizar essa busca. Tomando como exemplo a etiqueta para o verbo modal de necessidade ( md+nec ), podemos fazer a busca utilizando tanto md como nec. Na lista de palavras, nec é menos frequente (ocorre vezes) e md é mais frequente (ocorre vezes), o que significa que é necessário dividir a frequência por e, em settings indicar que as concordâncias sejam escolhidas e exibidas de modo aleatório a cada 2 para nec e a cada 7 para md. A diferença na frequência das 2 etiquetas (nossas 2 palavras de busca) ocorre porque md se refere a modal e nec ao tipo (de necessidade). Assim, se precisarmos buscar apenas esse tipo de modal, a escolha mais sensata é fazer a busca utilizando nec. Porém, se também vamos buscar outros modais, o ideal é solicitar concordâncias com a etiqueta md e ir reorganizando o modo como as concordâncias são dispostas, selecionando em sorting uma para a direita (1R), assim, as concordâncias de md serão dispostas em ordem alfabética pela palavra à sua direita. Como todos os modais são observados na persuasão, buscamos a partir de md. Por ser textos etiquetados, deparamo-nos com muita sujeira, assim, aumentamos os horizons para 10 (em geral, o padrão é 5) (Figura 3.10). Clicando na palavra de busca md na lista de palavras e, então, na tecla C

108 118 (concord), o programa gera automaticamente as linhas de concordância (Figura 3.11). Figura Settings do Concord no WordSmith Tools. Fonte: Elaborada pela autora. Figura Concordâncias com md no WordSmith Tools. Fonte: Elaborada pela autora.

109 119 Nas concordâncias apresentadas, md ocorre com nec e, também, com hvd e pmd (etiqueta para would better), além de outras, em concordâncias não visíveis na Figura É importante notar que no lado direito há informação sobre em qual arquivo a concordância se encontra, assim, se almejamos aproveitar o texto em alguma atividade, a localização desses dados mostra-se relativamente fácil. Além disso, é possível expandir o texto clicando no botão grow para ler uma porção maior de texto (não utilizamos esse recurso nessa fase da pesquisa). Observando as palavras à esquerda de md nec, identificamos os modais de necessidade utilizados nos corpora e selecionamos essas palavras para chegar ao próximo passo. Para encontrar as palavras que acompanham as etiquetas, solicitamos os colocados da etiqueta md e organizamos os resultados buscando a segunda palavra à direita, obtendo uma lista dos modais mais frequentes para utilização no próximo passo. No quarto passo, realizamos as mesmas operações, porém, dessa vez, utilizando os corpora não etiquetados e, também, o corpus de referência. As palavras de busca nesse passo foram as levantadas a partir das etiquetas. Para exemplificar, aqui, encontramos should e must como mais frequentes nas colocações. Ao solicitar as concordâncias com should e must, são selecionados exemplos para uso nas atividades. Nessa parte do procedimento, selecionamos tanto grupos de concordâncias para atividade do tipo ensino guiado pelos dados (EGD), no entanto, trabalhamos com elas sob a forma de sentenças inteiras (expandindo a concordância), para facilitar a compreensão dos alunos (quadros ).

110 120 Quadro 3.4 Concordâncias com must N Concordance 8 danger is. Then they must accept the fact that the time s 9 ropean farmers. They must accept the fact that quotas are N Concordance 26 es to bigger crimes I must admit that crime doesn't pay. 27 the traffic lights. I must admit that it wasn't much eas 28 is buying new cars. I must admit that money gives you t 29 ciety of today, but I must admit that I am in the firm c 30 s and daughters and I must admit that it's partly true. 31 inny dwarfs anyway. I must admit that I sometimes drea 32 take us elsewhere. I must admit that such beauty spots Fonte: Elaborado pela autora. Quadro 3.5 Concordâncias com must expandidas como sentença N Concordance However, NATO must not ignore the objections of Russia, but instead NATO must insist on a treaty with Russia so that the world's largest country does not feel excluded. Fonte: Elaborado pela autora. Quadro 3.6 Concordâncias com must expandidas como parágrafo N Concordance 1 Some opinions and judgements of famous people are very helpful while making important decisions. It happens that we form our own philosophy of life adopting some moral values of people we admire. Talking all this into consideration we must admit th at media affect our approach to reality in a positive way, as they shape the values and culture of the society. However, on the other hand some negative effects can be observed. For example, television has very negative impact on children who are exposed to violent detective stories. Fonte: Elaborado pela autora. Adequamos esses conteúdos e os textos selecionados à estrutura adotada para as atividades. Com base nos procedimentos descritos neste capítulo, desenvolvemos toda a pesquisa, no entanto, antes de definir a metodologia mais adequada para tanto, recorremos a um estudo piloto para o mapeamento das redações de acordo com as

111 121 dimensões 1 e 4 do inglês (BIBER, 1988). Apresentamos o estudo piloto no próximo capítulo, para ilustrar os ajustes necessários para a pesquisa em si.

112 122

113 123 4 ESTUDO PILOTO Antes de iniciar a pesquisa em si, realizamos um estudo piloto, para averiguar se a metodologia adotada, a análise multidimensional (AMD), apresentaria resultados expressivos em relação à variação linguística nas redações de alunos de inglês de nível avançado. Para tanto, no estudo piloto, optamos por fazer um mapeamento da variação linguística das redações selecionando, para esse fim, apenas as dimensões 1 (envolvimento e informacional) e 4 (persuasão explícita e persuasão implícita) do estudo da variação do inglês de Biber (1988). A dimensão 1 foi selecionada por ser a de maior peso estatístico na análise fatorial e aquela que conta com o maior número de características linguísticas. Nesse caso, almejávamos garantir que, mesmo nossos corpora sendo compostos por redações argumentativas (escritas), ou seja, todas do mesmo tipo de registro, elas realmente poderiam apresentar características da fala presentes na dimensão 1 (envolvimento) e variação ao longo dessa dimensão. A dimensão 4 também foi selecionada por ser aquela que trata da persuasão, característica fundamental da argumentação e a base das redações em estudo. Com os resultados obtidos no estudo piloto, constatamos que havia potencial de apresentar resultados relevantes por meio da metodologia adotada, que poderia ser utilizada para o mapeamento das redações em relação a todas as dimensões de variação do inglês no estudo principal. Constatamos, ainda, que os corpora utilizados poderiam revelar mais dados relevantes se realizássemos a fatoração dos corpora para identificar suas próprias dimensões, procedimento que levou à segunda pergunta de pesquisa. No estudo piloto tivemos por objetivo perceber se e como os textos argumentativos produzidos por alunos de inglês variam de acordo com as dimensões 1 e 4 do estudo da variação do inglês de Biber (1988) Metodologia Como indicado anteriormente, a AMD foi a abordagem adotada para este estudo. Os dados analisados foram obtidos dos seguintes corpora: International

114 124 Corpus of Learner English (ICLE), Brazilian International Corpus of Learner English (BrICLE) e Louvain Corpus of Native English Essays (LOCNESS). Há algumas pequenas diferenças relativas ao uso desses corpora: 1. O BrICLE conta com um número menor de redações; 2. As redações chinesas do ICLE não estavam separadas entre Hong Kong e UK (como no estudo principal); e 3. Junto às redações do LOCNESS se encontravam redações de alunos do nível equivalente ao Ensino Médio brasileiro, que foram retiradas do estudo principal. Por conta do estudo piloto já apresentar e discutir muitas das características e procedimentos da AMD utilizadas no estudo principal, retomamos apenas algumas definições de termos, para facilitar sua compreensão. Iniciamos com o termo registro. Quase todos os trabalhos de Biber (1988; 2001; 2006) apresentam o termo registro como tipo de texto utilizado em dado contexto situacional com certa função comunicativa. Assim, como lidamos com redações escritas sobre temas determinados, por alunos de inglês de nível avançado, acreditamos que os textos obtidos estão mais relacionados à definição de registro segundo Biber (1988; 2001; 2006) e as redações são denominadas tanto textos como registros nesta tese. Outros termos utilizados na pesquisa que requerem maior atenção são: a) variáveis; b) fatores; e c) dimensões. As variáveis aparecem na abordagem da AMD como a contagem dos traços linguísticos observados nos registros em estudo e que são responsáveis, após ser estatisticamente analisadas, pela formação dos fatores. Isso significa que traços linguísticos como substantivos, adjetivos atributivos, omissão de that, coesões subordinadas etc. constituem variáveis dos textos. Os fatores são formados a partir de uma análise fatorial das variáveis, ou seja, quando as variáveis linguísticas são agrupadas por meio de cálculos estatísticos (no programa IBM SPSS Statistics, versão 20), os agrupamentos de variáveis resultantes formam os fatores. As características e estatísticas que ocorrem nos fatores devem ser interpretadas considerando-se os tipos de função comunicativas inerentes ao fator. Ao interpretar os fatores expondo suas funções comunicativas, deparamo-nos com as dimensões de variação dos textos. As dimensões são

115 125 utilizadas para compreender como os diferentes registros variam linguisticamente e como essa variação se distribui ao longo das dimensões. Para encontrar os fatores e dimensões de variação realizamos os procedimentos descritos no item Uma única diferença no estudo piloto foi o fato de termos utilizado um etiquetador diferente, pois ainda não contávamos com o Biber Tagger. Por conta disso, etiquetar os corpora e quantificar traços linguísticos mostrouse a parte mais complexa do estudo piloto, porque não tínhamos um etiquetador adequado às necessidades da pesquisa e, por isso, tentamos utilizar o Visual Interactive Syntax Learning (VISL), o Tree Tagger e o WMatrix, porém, todos os etiquetadores se mostraram problemáticos por falta de algumas etiquetas ou por sua utilização mostrar-se dificultosa com grandes quantidades de textos. O VISL é um etiquetador on-line que tem sido utilizado em estudos em AMD (CONDE, 2002; KAUFFMANN, 2005) e, como já o utilizamos em outras pesquisas, essa foi nossa primeira escolha. Embora seu grupo de etiquetas seja bastante abrangente, é muito difícil operacionalizar a etiquetagem quando se tem uma quantidade muito grande textos (como no nosso caso), porque devemos carregar os arquivos um a um, o que tornou seu uso impraticável para um estudo com mais de arquivos de texto. Assim como o VISL, o Tree Tagger e o WMatrix também apresentaram problemas, porém, no caso desses programas, com as etiquetas. Ao experimentar a realização do estudo com as etiquetas desses programas, notamos pouca variação nos resultados e constatamos que isso ocorreu porque os programas trabalhavam com uma quantidade de etiquetas bem inferior à do Biber Tagger. Para resolver esse problema, foi criado um etiquetador no âmbito do Gurpo de Estudos em Linguística de Corpus (Gelc) que reproduz as mesmas etiquetas utilizadas por Biber (1988). Nosso etiquetador é um programa elaborado em Unix Shell destinado a emular o Biber Tagger. Para isso, ele utiliza um grupo de arquivos pré-anotados, como os encontrados no Tree Tagger ou no Palavras (outro tipo de etiquetador). Com base na pré-anotação, o etiquetador extrai e quantifica as frequências das variáveis. Para algumas variáveis, como as dependentes de identificação de palavras, o etiquetador não utiliza arquivos pré-anotados, mas, sim, textos não etiquetados. Além disso, para outras variáveis cuja identificação não se mostrou possível por meio da pré-anotação ou textos não etiquetados, o etiquetador processa concordâncias de itens relacionadas à variável e, então, o pesquisador

116 126 pode etiquetá-las manualmente. Após a etiquetagem definitiva de nossos corpora, passamos à contagem das variáveis. Para realizar a quantificação de variáveis, utilizamos uma série de scripts elaborados em Unix Shell que também possibilitaram organizar os dados em uma planilha do Microsoft Excel para posterior leitura no programa estatístico SPSS (no piloto utilizamos a versão PASW Statistics 18). A partir daí, seguimos os demais passos propostos no estudo principal. Obtendo os resultados expostos em Resultados A partir dos procedimentos adotados, deparamo-nos com dados que demonstram: a) como os pesos das variáveis estão distribuídos nos corpora de estudo; e b) a distribuição dos fatores pelas composições e pelas nacionalidades (países de origem 3 das redações). Utilizamos os escores médios das redações das diferentes nacionalidades para confirmar e interpretar sua distribuição pelas dimensões. A Tabela 4.1 que apresenta como os escores médios das redações se distribuem pela dimensão 1. O polo positivo da dimensão 1 do estudo de Biber (1988) é interpretado como envolvido, por isso, aproxima-se mais da linguagem oral. Um escore alto nessa dimensão significa que os textos apresentam características léxico-gramaticais que se aproximam das características da fala. Por outro lado, um escore negativo significa que os textos são mais informacionais e apresentam características mais típicas da escrita. A reorganização dos dados para classificá-los por seus escores é ilustrada no Gráfico Adotamos o termo origem dos alunos porque, em alguns casos, há redações de alunos com a mesma língua materna e a mesma nacionalidade, porém, esses alunos vivem em países diferentes, portanto, não poderíamos utilizar países ou nacionalidades. As redações de alunos chineses, por

117 127 Tabela 4.1 Escores médios para a dimensão 1 País Escore médio Brazil 0,3241 Bulgary 2,3833 China -6,3865 Czeck 4,8323 Finland 1,7240 France -2,8529 Germany -1,5859 Holland 2,1056 Italy -1,9910 Japan 8,2834 Locness (native) -2,2946 Norway 5,7998 Poland -5,1003 Russia 2,0357 Spain 2,6155 Sweden -0,2371 Tswana (Africa) 1,7625 Turkey 5,1940 Fonte: Elaborada pela autora. No Gráfico 4.1 podemos notar que as redações produzidas pelos estudantes japoneses são as mais ligadas ao envolvimento, ou seja, elas apresentam mais características da linguagem oral que as dos aprendizes dos demais países. Por outro lado, as redações de alunos chineses, poloneses e franceses aparecem no outro extremo, mostram-se fortemente ligadas à expressão de conteúdos informacionais (relacionados à escrita). As redações dos alunos brasileiros e suecos apresentaram escores próximos a zero, o que significa que carregam características de ambos os polos. Os quadros 4.1 e 4.2 apresentam exemplos retirados das exemplo, estão divididas em dois corpora: redações de alunos chineses que vivem em Hong Kong e redações de alunos chineses que vivem na Inglaterra.

118 128 redações de alunos japoneses e chineses com escores altos para envolvimento e conteúdo informacional. Gráfico 4.1 Distribuição dos países na dimensão 1 Japan 8,2834 Norway 5,7998 Turkey 5,1940 Czeck 4,8323 Spain 2,6155 Bulgary 2,3833 Holland 2,1056 Russia 2,0357 Tswana 1,7625 Finland 1,7240 Brasil 0,3241 Sweden -0,2371 Germany -1,5859 Italy -1,9910 Locness -2,2946 France -2,8529 Poland -5,1003 China -6,3865 Fonte: Elaborado pela autora. envolvido informacional

119 129 Quadro 4.1 Redação com escores altos para envolvimento e conteúdo informacional: Japão Japan JPWA4012 I think (that del) the greatest in invention of the twentieth century is the "Instant Chinese Noodle". Reason why I think (that del) it as the greatest invention of twentieth century is I like it very much. Once we eat it we can't stop eating is, isn't it? I wish (that del) you like it too. I was surprised that it was born in Japan. And I think (that del) it is one of the most pride inventions of Japan. The person who invented the first Instant Chinese Noodle "Chiken Ramen", folled by "Cup Noodle", is Mr. Momofuku Ando who lived in Osaka. On 1955, after World War U,Japan surrendered to America and economy was depressed. Many companies were bankrupted and Mr. Ando went out of his business like others. Fonte: Elaborado pela autora. Quadro 4.2 Redação com escores altos para envolvimento e conteúdo informacional: China cnhk1782.txt.latin1 Total ban on smoking in restaurants have been widely debated among Hong Kong citizens. The introduction of total ban on smoking in restaurants would affect the catering industry as well as the health of the citizens. In this essay, I will discuss the advantages and disadvantages of banning smoking on restaurants. According to<r>, breathing secondhand smoke would greatly increases the risk of lung cancer and heart disease by about 25%. Banning smoking could reduced the chance of nonsmokers of exposing to secondhand smoke, therefore, the risk of lung cancer and heart disease of nonsmokers would reduce. Fonte: Elaborado pela autora. Nesses textos, podemos observar com clareza como as características linguísticas destacadas na AMD para a dimensão 1 mostram as diferenças entre os 2 textos. O texto do aluno japonês, que é mais envolvido, tem maior incidência de omissões de that (mais utilizadas na fala conversacional), to be como verbo principal, uso de WH e amplificadores, enquanto o texto do aluno chinês traz uma carga informacional maior, com uso mais frequente de substantivos, nominalizações e orações preposicionais. A dimensão 4 foi interpretada por Biber (1988) como a dimensão da persuasão; uma vez que não ocorrem escores negativos em Biber (1988), essa dimensão não

120 130 apresenta dois polos distintos. No entanto, os textos podem variar ao longo da dimensão como sendo textos explicitamente persuasivos ou implicitamente persuasivos. A Tabela 4.2 ilustra como os escores médios das redações (por nacionalidade) se distribuem na dimensão 4. Tabela 4.2 Escores médios para a dimensão 4 País Escore médio Brazil -1,2908 Bulgary -0,6842 China 0,6790 Czeck -0,4468 Finland 0,1849 France -0,1634 Germany -1,3764 Holland 0,3237 Italy 0,2753 Japan 0,8586 Locness 0,8905 Norway 0,0098 Poland -0,8582 Russia -0,5770 Spain -1,0526 Sweden -0,6673 Tswana (Africa) 0,3943 Turkey 1,0839 Fonte: Elaborada pela autora. Novamente, reorganizando os dados (Gráfico 4.2), podemos notar que as redações do LOCNESS tendem a ser bastante argumentativas. As redações da Turquia parecem apresentar características ainda mais marcantes da argumentação se comparadas às dos demais países. Com escores mais baixos observamos as redações de alunos alemães, brasileiros, espanhóis poloneses, búlgaros, suecos,

121 131 russos e checos; aparentemente a escrita desses alunos deixa a desejar em relação às características que fazem com que um texto seja argumentativo. Gráfico 4.2 Distribuição dos países na dimensão 4 Turkey 1,0839 Locness 0,8905 Japan 0,8586 China 0,6790 South Africa 0,3943 Holland 0,3237 Italy 0,2753 Finland 0,1849 Norway 0,0098 France -0,1634 Czeck -0,4468 Russia -0,5770 Sweden -0,6673 Bulgary -0,6842 Poland -0,8582 Spain -1,0526 Brasil -1,2908 Germany -1,3764 Fonte: Elaborado pela autora. Persuasão explícita Persuasão implícita Considerando os resultados obtidos, podemos afirmar que as redações de alunos de inglês apresentam variação ao longo das dimensões 1 e 4 do estudo de Biber (1988) Implicações É interessante observar nos resultados que a linguagem utilizada pelos alunos varia, mas que, porém, essa variação parece ocorrer independentemente da origem

122 132 dos alunos. Observando os resultados das redações individualmente, percebemos que os escores não variam de modo igual nas redações de alunos do mesmo país (Tabela 4.3), ou seja, na média, temos os países alocados nas dimensões como um todo, mas individualmente podemos ver que nas 20 redações com escores negativos mais altos na dimensão 4, há alunos da China, República Tcheca, Polônia, Alemanha, África, Russia, Turquia e falantes nativos de inglês (LOCNESS). Tabela 4.3 Escores individuais das redações na dimensão 4 country files factor 1 country files factor 1 postagged/cnhk1546,txt,latin1 postagged/cnhk1543,txt,latin1,tag -23,65,tag -20,4 postagged/tskc1377,txt,latin1,tag postagged/cnhk1597,txt,latin1-22,79,tag -20,07 postagged/popz5019,txt,latin1,tag postagged/geau1089,txt,latin1-22,5,tag -19,83 postagged/popz5037,txt,latin1,tag postagged/tsno1411,txt,latin1, -22,21 tag -19,71 postagged/locness ,txt,tag postagged/cnhk1278,txt,latin1-21,7,tag -19,45 postagged/geau2030,txt,latin1,tag postagged/fruc3096,txt,latin1, -21,45 tag -19,44 postagged/tskc1379,txt,latin1,tag postagged/geau2004,txt,latin1-21,43,tag -19,37 postagged/posi2003,txt,latin1, tag postagged/popz2035,txt,latin1, -20,97 tag -19,34 postagged/cnhk1036,txt,latin1,tag postagged/cnhk1566,txt,latin1-20,45,tag -19,3 postagged/tsno1383,txt,latin1,tag postagged/rumo5010,txt,latin1-20,41,tag -19,29 Fonte: Elaborada pela autora.

123 133 O uso da AMD e de corpora de aprendiz mostra-se válido para estudar a variação na escrita de alunos de inglês de países diferentes, no entanto, notamos que é preciso aprofundar os estudos e analisar, também, as demais dimensões, pois, uma vez que há variação nas redações, restam algumas dúvidas: como entender a variação na escrita do aluno de inglês em termos de dimensões? É necessário realizar a fatoração dos corpora e ver como variam dentro de suas próprias características, já que alunos com a mesma nacionalidade não escrevem do mesmo modo. Há muitas similaridades entre os alunos de primeira língua diferentes e diferentes contextos educacionais, o que, talvez, esteja relacionado à influência do ensino globalizado de línguas. Há diferenças contrastantes nos textos dos alunos, mostrando a existência de mais de um tipo de argumentação. Outro questionamento surge, ainda, ao observarmos esses resultados: como eles podem ser aplicados (utilizados no ensino) para que a escrita do aluno possa ser aperfeiçoada? Foi com todos estes questionamentos em mente que iniciamos o estudo principal, já carregando a expectativa de encontrar variação no mapeamento de todas as dimensões do inglês de Biber (1988) e na argumentação das redações dos alunos. Além disso, observando como as características linguísticas nos textos de diferentes polos nas dimensões variavam, passamos a vislumbrar um modo de aplicar os resultados obtidos ao ensino de inglês. Portanto, dando sequência a esta tese, no próximo capítulo apresentamos os resultados do estudo principal.

124 134

125 135 5 RESULTADOS Este capítulo discute os resultados da análise desenvolvida de acordo com a abordagem teórica e metodológica propostas nesta tese. Inicialmente, apresentamos os resultados que respondem à nossa primeira pergunta de pesquisa, relacionando as redações de aprendizes de línguas às dimensões de variação do inglês propostas por Biber (1988). Na sequência, apresentamos os resultados relativos à nossa segunda pergunta de pesquisa, mostrando como as redações argumentativas de alunos de inglês de nível avançado variam de acordo com suas dimensões específicas. Por fim, para responder à nossa terceira pergunta de pesquisa, apresentamos os conteúdos levantados a partir das duas primeiras perguntas em formato de atividades didáticas para ensinar alunos de inglês a variar e aperfeiçoar seu modo de escrever Mapeamento das dimensões Para responder à nossa primeira pergunta de pesquisa, qual seja, como as redações de aprendizes de inglês de 18 origens diferentes e de estudantes nativos variam em relação às dimensões do inglês descritas por Biber (1988)?, foi necessário etiquetar os corpora de estudo (BrICLE, ICLE e LOCNESS), então, quantificar suas características linguísticas, processar esses dados, que, aqui, funcionam como variáveis, no Biber Tag Count e, em seguida, colocá-los em uma planilha do Microsoft Excel para torná-los legíveis por meio do programa SPSS, versão 20. No SPSS, utilizando o modelo linear geral com uma variável, identificamos como as redações, por origem, variam segundo as 5 dimensões de Biber (1988) Mapeamento da dimensão 1 A dimensão 1 mostra a variação de acordo com dois polos distintos; no polo positivo, o envolvimento, que traz características típicas da fala, no polo negativo, o

126 136 lado informacional, que traz características típicas da escrita. Observando o Gráfico 5.1, nota-se que as características das redações das diferentes origens se espalham pelos dois polos, no entanto há uma concentração maior de países no polo positivo. As redações de alunos japoneses são as mais envolvidas (influência da fala) e as dos chineses as mais informacionais (escrita elaborada). Para facilitar a comparação, o Gráfico 5.2 ilustra como os registros do inglês variam segundo Biber (1988). Gráfico 5.1 Redações na dimensão 1 Gráfico 5.2 Dimensão 1 de Biber Fonte: Elaborado pela autora. Fonte: Elaborado pela autora. Comparando os dois gráficos, o que vemos é que as redações de alguns países, como, por exemplo, Noruega (Norway), Bulgária (Bulgary), República Tcheca (Czec Republic) e África do Sul (South Africa) se aproximam

127 137 (numericamente valor entre 5,0 e 7,0) do registro de ficção romântica, que, embora, seja um registro escrito, está ligado ao envolvimento e à fala. No outro polo, observamos que as redações chinesas de Hong Kong (China HK) possuem escores próximos aos registros ligados à ficção científica, religião e humor. Aqui, já é possível perceber que a variação nos textos argumentativos pode permear outros registros, uma vez que, em alguns pontos, ela tem características comparáveis à ficção romântica e, em outras, à religião etc. No Gráfico 5.1, vemos que as redações separadas por origem têm uma posição e variação específicas porque se trata da média dos escores das redações, no entanto, ao examinar os escores individuais das redações, os resultados são contrastantes, porque podemos notar que a variação não ocorre apenas entre países (de um país para outro), mas, também, dentro do país (de redação para redação). A Tabela 5.1 apresenta uma amostra com as 10 redações com escores negativos mais altos; nessa amostra, podemos ver que há uma mistura significativa de redações de diferentes origens e que as redações chinesas (Hong Kong) que têm a média mais alta no polo negativo não representam maioria nessa amostra, além disso, a redação com maior escore negativo é da Rússia que na média encontra-se no polo positivo. Ao observar os textos das redações com escore mais alto em ambos os polos, o do envolvimento e o informacional, as diferenças entre eles se mostram significativas e, embora todos os textos sejam argumentativos, são construídos de modo diferente. O texto do aluno russo (Quadro 5.1) apresenta maior variedade vocabular (razão/forma), grande número de diferentes substantivos, orações com WH e orações passivas, características típicas dos textos informacionais. Já o texto do aluno chinês (Quadro 5.2) apresenta alto grau de repetição de vocabulário, uso do verbo to be como verbo principal e do pronome it, características típicas dos textos oralizados. Pode-se notar que, de certa forma, a linguagem na redação do aluno chinês parece ser mais simplificada, embora carregue traços de argumentação e da escrita. Considerando a classificação proposta pela análise multidimensional (AMD), parece-nos que as diferenças entre os textos foram captadas pela metodologia adotada, que apontou valores numéricos (em termos de variação) significativos.

128 138 Tabela 5.1 Redações do polo negativo na dimensão 1 N Nome do arquivo por origem 4 Escore individual por redação 1. jpko2007.txt.latin1 (japonesa) -14,49 2. tskc1345.txt.latin1 (turca) -14,6 3. locness txt (nativos) -14,63 4. geau1049.txt.latin1 (alemã) -14,68 5. rumo6023.txt.latin1 (russa) -14,97 6. geau1015.txt.latin1 (alemã) -16,18 7. geau3061.txt.latin1 (alemã) -16,64 8. geau2018.txt.latin1 (alemã) -16,74 9. nouo1063.txt.latin1 (noruega) -16, rumo4011.txt.latin1 (russa) -17,06 Fonte: Elaborada pela autora. Quadro 5.1 Amostra de redação de aluno russo rumo4011.txt.latin1 (escore: -17,06) In Chicago, two boys are sentenced to prison after dropping a 5 year old out of (prep) a 14th - story window because he wouldn't steal candy for them. Those boys are 12 and 13 years old. This world is getting crazy. Film full of violence appear on the screen with numbing repetition. Films which are destroying souls and minds of little kinds. America and Russia are quite alike. Some problems can't be solved, no matter who's looking for solutions. One Russian boy who was 12 years old blamed his vices on his parents. And he was right. He was right because he's dead now. Nobody cares what his parents feel now. Nobody wants to care his life was a real mess. Fonte: Elaborado pela autora.

129 139 Quadro 5.2 Amostra de redação de aluno chinês cnhk1502.txt.latin1 (escore: 16,15) In recent years, there is a development of a modern method of waste management in Hong Kong. The method is recycling. It is a process which involves the reuse of waste materials for benefical purposes. In Hong Kong, there are many different opinion about recycling, This essay is going to discuss the advantages and disadvantages of recycling as a method of waste management. First of all, according to<r>, recycling is a good method of waste management. Fonte: Elaborado pela autora. Corroborando a noção de que as redações variam bastante, independentemente da origem 5 do aluno, o que explica a mistura observada na Tabela 5.1, podemos notar nos dados obtidos na Anova, Tabela 5.2, que a variação nas redações é significativa (Sig. com valor zero), que há variação entre os textos (F) e que a origem dos alunos explica apenas 17,4% (R² = 0,174) da variação. Tabela 5.2 Anova da dimensão 1 de Biber em relação ao ICLE Source Mean Square F Sig. Corrected 6658,958 75,839,000 Model Intercept 19332, ,174,000 country 6658,958 75,839,000 a. R Squared = 0,174. Fonte: Elaborada pela autora. Desse modo, constatamos que há variação entre as redações no que diz respeito às características da dimensão de Biber (1988), pois o valor de F é significativo (Sig. menor que 0,05), porém, muito pouco dessa variação é explicada ou prevista pela origem do aluno. O valor de F, segundo Field (2009, p. 162), diz respeito à medida de quanto o modelo melhorou na previsão de valores comparado 4. Tabela completa com os nomes dos arquivos por origem no Anexo Adotamos o termo origem dos alunos porque, em alguns casos, há redações de alunos com a mesma língua materna e a mesma nacionalidade, porém, esses alunos vivem em países diferentes, portanto, não poderíamos utilizar países ou nacionalidades. As redações de alunos chineses, por exemplo, estão divididas em dois corpora: redações de alunos chineses que vivem em Hong Kong e redações de alunos chineses que vivem na Inglaterra.

130 140 com o nível de não precisão do modelo Mapeamento da dimensão 2 A dimensão 2 também se apresenta em dois polos distintos; no polo positivo temos a preocupação narrativa e no polo negativo a não preocupação narrativa. Com base no Gráfico 5.3, nota-se que as características das redações dos alunos de diferentes origens não se espalham pelos dois polos como na dimensão 1, todas as redações, embora com variação quanto ao grau de não preocupação narrativa, colocam-se no polo negativo (lado esquerdo do gráfico). As redações com menor preocupação narrativa são as dos alunos de origem chinesa de Hong Kong e os que demonstraram aproximar-se (pouco) dos textos com características de preocupação com narração foram o dos alunos nativos de inglês (locness). Comparando com os registros do inglês (BIBER, 1988), temos os textos com mais baixa preocupação narrativa aproximando-se dos registros de documentos oficiais e os de maior preocupação narrativa aproximando-se dos textos de press reviews (resenhas). Isso causa certa estranheza porque estamos lidando com redações argumentativas que se posicionam ao lado de textos de documentos oficiais que costumam ser informacionais e descritivos (daí serem não narrativos), mas que guardam bem pouca semelhança com a argumentação, porém, uma vez mais, vemos que a argumentação pode entrecruzar registros diversos dependendo do propósito de quem a produz. Ao analisar a Tabela 5.3, com os dados estatísticos relativos à distribuição e variação das redações ao longo da dimensão 2, novamente nos deparamos com o fato de a variação relacionar-se pouco à origem, pois, embora a variação seja significativa (Sig = 0), o país de origem do aluno explica apenas 7,8% (R² = 0,078) da variação presente nas redações.

131 141 Gráfico 5.3 Redações na dimensão 2 Gráfico 5.4 Dimensão 2 de Biber Fonte: Elaborado pela autora. Fonte: Elaborado pela autora. Tabela 5.3 Anova da dimensão 2 de Biber em relação ao ICLE Source Mean Square F Sig. Corrected Model 71,817 30,538,000 Intercept 22997, ,796 0,000 country 71,817 30,538,000 a. R Squared =,078. Fonte: Elaborada pela autora.

132 142 Ao contrastar os resultados por origem (cada país) com os resultados por redação (cada redação de cada país), observamos como a variação é, de fato, pouco relacionada à origem dos alunos. Na Tabela 5.4 elencamos redações de diferentes países, tais como China (Hong Kong cnhk), Alemanha (geau), Rússia (rumo) e África do Sul (tskc e tsno), que se distribuem entre as 10 redações com escores negativos mais altos, ou seja, as redações de alunos dessas diferentes origens têm características não narrativas. Tabela 5.4 Redações do polo negativo na dimensão 2 N Nome do arquivo por origem Escore individual por redação 11. cnhk1662.txt.latin1-5, geau1013.txt.latin1-5, geau2031.txt.latin1-5, cnhk1124.txt.latin1-5, cnhk1205.txt.latin1-5, cnhk1252.txt.latin1-5, rumo1013.txt.latin1-5, rumo1015.txt.latin1-5, tskc1360.txt.latin1-5, tsno1452.txt.latin1-5,73 Fonte: Elaborada pela autora. Além disso, é importante frisar que a média entre as redações dos diferentes países as posicionou no polo negativo, no entanto, há redações no polo positivo, que demonstram preocupação narrativa e, assim, diferem ainda mais das redações posicionadas no polo negativo, como exemplificamos na Tabela 5.5.

133 143 Tabela 5.5 Redações do polo positivo na dimensão 2 N Nome do arquivo por origem Escore individual por redação 21. locness txt 7,7 22. czpr1035.txt.latin1 6, fiab1080.txt.latin1 6, tskc1345.txt.latin1 5, jpri1001.txt.latin1 5, czpr1005.txt.latin1 5, geau3059.txt.latin1 5, jpsw1014.txt.latin1 4, tskc1299.txt.latin1 4, geau2018.txt.latin1 4,56 Fonte: Elaborada pela autora. As diferenças entre redações de um polo e outro se mostram bastante significativas. O texto do aluno chinês (Quadro 5.3) utiliza adjetivos atributivos, verbos no presente e orações adjetivas reduzidas de particípio. No texto do aluno falante nativo de inglês (Quadro 5.4) tem-se a impressão de que há um engano quanto ao tipo de registro, o aluno apresenta um momento histórico, no passado, há presença massiva de verbos no passado, uso de terceira pessoa e verbo no presente perfeito. Embora haja mais erros na redação do aluno chinês, o texto se mostra mais próximo da argumentação, ou seja, sem preocupação narrativa, enquanto que o texto do aluno nativo se mostra próximo da narração, a preocupação argumentativa parece estar na noção de que o aluno quer convencer o leitor de que aquele foi um momento especial. Novamente, considerando a classificação proposta pela AMD, as diferenças entre os textos são bem captadas pela metodologia adotada, em especial no que diz respeito à variação linguística entre redações, e não entre as diferentes origens dos alunos.

134 144 Quadro 5.3 Redação de aluno chinês cnhk1662.txt.latin1 (escore: -5,51) On the other hand, China will become a member of the WTO (world trade organization). The business opportunities between the mainland and Hong Kong will be increase very fast and the relationship between China and Hong Kong will be more close together in the future. Checkpoints at Lowu and Lok Ma Chau may not enough for processing a large number of passengers and cargoes. The Transport Secretary Nicholas state that building a second railway link can help to increase the business opportunities and improve Hong Kong-Mainland relationship and co-operation. It points out that the second railway not only improve the ecomony in Hong Kong and China, but also increase the trade between the mainland and Hong Kong. Fonte: Elaborado pela autora. Quadro 5.4 Redação de aluno falante nativo de inglês locness txt (escore: -7,7) They cried, they cheered. Their faces expressed joy, triumph, pride and perplexity. The world watched in anticipation. We were mesmirized by the images of the TV, expecting something new at every moment and not wanting to miss it. I remember that day it was the only topic of conversation at school: "Have you heard?", "I can't believe it!", "After all this time!", "I never thought it would happen." We all felt that we were living one of those historic moment that you read about in a history book and were proud to be a part of it. It was November 9, 1989, the day that the Wall fell in Berlin. Fonte: Elaborado pela autora Mapeamento da dimensão 3 Quanto à dimensão 3, referência explícita versus dependente da situação, observamos uma concentração das redações no polo positivo, o da referência explícita, novamente coincidindo com textos de documentos oficiais, press reviews (resenhas críticas) (da dimensão 2) e textos religiosos (da dimensão 1), todos pertencentes à registros escritos, como se vê nos gráficos 5.5 e 5.6. O polo positivo dessa dimensão está ligado à elaboração do texto em detrimento dos referenciais de tempo e espaço (promovidos pelos advérbios) comuns em textos elaborados em tempo real (como emissões televisas e entrevistas). As redações com maior grau de elaboração (explícitas) são as dos alunos italianos, enquanto que as menos explícitas são as dos alunos noruegueses. Com esse resultado, podemos notar que há características nos textos dos alunos que fazem com que a argumentação seja mais explícita, mas também há argumentação com alguma dependência a situação.

135 145 Gráfico 5.5 Redações na dimensão 3 Gráfico 5.6 Dimensão 3 de Biber Fonte: Elaborado pela autora. Fonte: Elaborado pela autora. Ainda que os escores médios tenham posicionado as redações (por origem) todas no mesmo polo, há variação quanto ao grau de referência explicita utilizado, pois os escores variam de 6,76 (Itália) a 1,77 (Noruega). Ao examinar os dados estatísticos obtidos durante a análise (Tabela 5.6) veremos que Sig. é igual a 0, o que quer dizer que a variação é significativa, porém, o R² indica que apenas 11,7% (0,117) da variação é explicada pela origem do aluno. Há variação entre as redações no que diz respeito às características da dimensão de Biber (1988), mas que muito pouco dessa variação é explicada ou prevista pela origem do aluno.

136 146 Tabela 5.6 Anova da dimensão 3 de Biber em relação ao ICLE Source Mean square F Sig. Corrected Model 665,480 47,744,000 Intercept , ,243 0,000 country 665,480 47,744,000 Error 13,939 a. R Squared =,117. Fonte: Elaborada pela autora. Uma vez mais, decidimos observar os escores individuais das redações para confirmar que a variação é linguística e não dependente da origem do aluno. Assim ao olhar as redações com os escores mais altos em ambos os polos, vemos que a mistura entre redações de alunos de diferentes origens continua ocorrendo, como apresentado nas tabelas 5.7 e 5.8, dessa vez, no entanto, notamos maior concentração de redações da África do Sul (tsno, tskc) no polo negativo. Tabela 5.7 Redações do polo negativo na dimensão 3 N Nome do arquivo por origem Escore individual por redação 1. geau1041.txt.latin1-11,15 2. tsno1125.txt.latin1-11,59 3. tsno1152.txt.latin1-11,78 4. tsno1509.txt.latin1-11,8 5. tsno1506.txt.latin1-13,07 6. tsno1096.txt.latin1-13,15 7. tsno1411.txt.latin1-13,92 8. tsno1219.txt.latin1-15,33 9. tskc1369.txt.latin1-15, tsno1080.txt.latin1-17,65 Fonte: Elaborada pela autora.

137 147 Tabela 5.8 Redações do polo positivo na dimensão 3 N Nome do arquivo por origem Escore individual por redação 1. locness txt 30,17 2. tsno1471.txt.latin1 24,49 3. itb01002.txt.latin1 21,5 4. tsno1423.txt.latin1 21,06 5. cnhk1676.txt.latin1 20,87 6. cnhk1767.txt.latin1 20,77 7. br-unimesp ,54 8. cnhk1122.txt.latin1 19,47 9. cnuk1090.txt.latin1 19, cnhk1214.txt.latin1 18,64 Fonte: Elaborada pela autora. Nos excertos de textos representando esses polos, podemos observar com maior clareza a diferença e variação entre um e outro. Na redação da África do Sul (Quadro 5.5), o texto faz referência a lugares, tempo e frequência de ocorrência o tempo todo (dependente do tema e local mencionados), fazendo com que pareça que o aluno está narrando uma história. Na redação de aluno falante nativo de inglês (Quadro 5.6) observamos o uso de WH para deixar claro de quem se fala ou quem é responsável pelo problema apresentado. Mais uma vez, percebemos que os escores que posicionam as redações nos polos parecem trazer informação precisa a respeito da variação no texto. Considerando o fato de estarmos tratando de argumentação, o texto com referência explícita parece mais esperado do que o dependente da situação, no entanto, como já mencionado anteriormente, a argumentação entrecruza outros registros, assim, a forma pode não ser argumentativa, mas a função do texto, sim.

138 148 Quadro 5.5 Redação de aluno da África do Sul tsno1080.txt.latin1 (escore: -17,65) Once upon a time there live my cousin in Rustenburg, she always tell me how beautiful is our Province and how attractive is it because when you come across some provinces people there always on the way of touring and visiting our province. In Mafikeng there are some game reserves, recreational dam (Lotlamoreng) where tourists come and have fun there. Fonte: Elaborado pela autora. Quadro 5.6 Redação de aluno falante nativo de inglês locness txt (escore: 30,17) Voltaire not only attacks the theory of optimism in his novel, but also attacks the religious order with which it is associated : the Catholics. The church as an institution is attacked through the condemning of religious wars, as are the clergy, who are seen to be hypocritical and scheming, for example abbé pévourdin who tricks Candide and tries to steal his money; the Jesuits, who more or less are trying to force those who were subservient; inequality of wealth among the weak and strong (those who could work longer and those who were ill); those who had homes, and those who did not. Fonte: Elaborado pela autora Mapeamento da dimensão 4 A dimensão 4 trata da persuasão, os textos que se distribuem no polo positivo são tipos explicitamente persuasivos, enquanto que os textos posicionados no polo negativo são considerados menos persuasivos. Ao examinarmos o Gráfico 5.7, podemos notar que há grande variação na distribuição das redações (por origem) ao longo dos polos, no entanto, somente as redações de alunos espanhóis estão localizadas no polo negativo, ou seja, pouco persuasivo. As redações dos alunos brasileiros encontram-se próximas ao centro (0) colocando-se como nem muito e nem pouco persuasivas. Já as redações dos alunos da África do Sul apresentam escores que demonstram alto grau de persuasão, como podemos ver no Gráfico 5.8 abaixo. Comparando com os textos das dimensões de Biber temos as redações de alunos espanhóis posicionados junto aos documentos oficiais enquanto que as redações da África do Sul colocam-se ao lado de cartas profissionais e editoriais. Considerando que documentos oficiais normalmente têm a função de descrever ou informar de modo (supostamente) neutro, parece razoável imaginar que há menor

139 149 preocupação persuasiva, e as redações que se colocam em posição próxima a esses registros provavelmente se mostram como uma nuance da argumentação que é possuir características linguísticas menos persuasivas. Gráfico 5.7 Redações na dimensão 4 Gráfico 5.8 Dimensão 4 de Biber Fonte: Elaborado pela autora. Fonte: Elaborado pela autora. Novamente, podemos observar que há variação entre as redações no que diz respeito às características da dimensão de Biber (1988), visto que o valor de F é significativo (Sig menor que 0,05), mas que muito pouco dessa variação é explicada ou prevista pela origem do aluno. A origem do aluno explica apenas 4,8% (R²= 0,048) da variação nessa dimensão (Tabela 5.9), sendo a mais baixa até o momento, ou seja, aquela na qual a variação linguística parece ser a única responsável pelas diferenças apresentadas.

140 150 Tabela 5.9 Anova da dimensão 4 de Biber em relação ao ICLE Source Mean square F Sig. Corrected Model 278,352 18,024,000 Intercept 8126, ,226,000 country 278,352 18,024,000 a. R Squared =,048. Fonte: Elaborada pela autora. Observando os escores das redações individualmente, podemos notar que no polo positivo (mais persuasivo) (Tabela 5.11), encontramos redações de alunos turcos (trke), sul-africanos (tsno, tskc), suecos (swu) e poloneses (popz). No polo negativo (Tabela 5.10), encontramos redações de alunos brasileiros e novamente sul-africanos, turcos. Assim, individualmente as redações de alunos turcos e sulafricanos variam ao longo dos dois polos, inclusive nas duas extremidades, o que reforça a noção por nós sugerida de que a variação explicada pelo país de origem é, muito baixa. Tabela 5.10 Redações do polo negativo na dimensão 4 N Nome do arquivo por origem Escore individual por redação 1. trcu1023.txt.latin1-6,61 2. tsno1116.txt.latin1-6,61 3. tsno1162.txt.latin1-6,61 4. tsno1211.txt.latin1-6,61 5. tsno1219.txt.latin1-6,61 6. tsno1259.txt.latin1-6,61 7. tsno1324.txt.latin1-6,61 8. tsno1411.txt.latin1-6,61 9. icle-br-unimesp-030-6, icle-br-usp-0001.tx -6,61 Fonte: Elaborada pela autora.

141 151 Tabela 5.11 Redações do polo positivo na dimensão 4 N Nome do arquivo por origem Escore individual por redação 1. trke2067.txt.latin1 28,16 2. tsno1501.txt.latin1 26,5 3. tsno1173.txt.latin1 23,55 4. tskc1355.txt.latin1 22,94 5. tsno1085.txt.latin1 22,15 6. tsno1158.txt.latin1 18,77 7. swug2035.txt.latin1 18,05 8. tsno1307.txt.latin1 17,53 9. popz3041.txt.latin1 17, tskc1353.txt.latin1 17,3 Fonte: Elaborada pela autora. Sendo a variação explicada pelas características linguísticas do texto, apresentamos os quadros 5.7 e 5.8 para demonstrar essa variação. Nota-se que no primeiro texto (de um aluno turco) (Quadro 5.7), no qual o escore é negativo, há poucas características da persuasão, apenas um verbo modal. No texto (também de um aluno turco) (Quadro 5.8) com escore positivo as características aparecem repetidamente, uso de modais de necessidade, orações subordinadas e verbos auxiliares separados. Quadro 5.7 Redação de aluno turco (1) trcu1023.txt.latin1 (escore: - 6,61) 20th century is full of important inventions. In this century human beings improved themselves and invented lots of useful equipments. The science developed in every areas. A lot of facts about the nature, human body space, sun system, etc. understood by human beings. I can not say that one of these inventions is the most important one but computer is one of the most important invention of human beings. It has lots of benefits for us. The history of computer is not too long. The invention of computer was in sixties. At the beginning it was very big in size. It developed very fast and today's computers took their last shape in eighties. Fonte: Elaborado pela autora.

142 152 Quadro 5.8 Redação de aluno turco (2) trke2067.txt.latin1 (escore: 28,16) We should keep the freedom of speech not so encounter to incredible sorrows. If people don t express themselves by newspapers or magazines the anger grows up. Therefore we should have the freedom of speech. This means every people should express her feelings friendly. The folk should not be responsible for their political views besides there since favor in forbidding political speech at the Army and at school. The authority should use the force in favor of people rather than oppres on people. The authority should judge ideas but shouldn t change them by force on the other hand some ideas when attacks to the authority to fell down. These ideas should not be printed for the contiomity of the state. Fonte: Elaborado pela autora Mapeamento da dimensão 5 O mapeamento da dimensão 5 de Biber (1988) mostra que as redações dos alunos de inglês se distribuem ao longo do polo positivo apenas, ou seja, a maioria das redação têm características próprias da informação abstrata. A dimensão de informação abstrata se ajusta ao uso de voz passiva para dar destaque a quem sofre a ação e co-ocorre com subordinações para marcar a relação de complexidade lógica no texto. As redações dos alunos brasileiros (em média) foram as mais abstratas enquanto que as tchecas apresentaram menor grau de abstração. Levando em conta os registros da dimensão 5 de Biber, as redações se aproximam dos textos mais informacionais e formais (discurso acadêmico, documentos oficiais, etc) como vemos nos gráficos 5.9 e 5.10.

143 153 Gráfico 5.9 Redações na dimensão 5 Gráfico 5.10 Dimensão 5 de Biber Fonte: Elaborado pela autora. Fonte: Elaborado pela autora. Nessa dimensão, a medida de significância da variação segue mostrando que há variação entre os textos nas dimensões de Biber (1988), pois F tem Sig. igual a 0, mas essa variação não é explicada pela origem dos alunos de inglês. Assim, temos R² igual a 0,107, o que significa que a origem do aluno (país) explica 10,7% da variação (Tabela 5.12). Uma vez mais, temos a variação baseada em características linguísticas ao invés de um fator externo a ela (origem do aluno).

144 154 Tabela 5.12 Anova da dimensão 5 de Biber em relação ao ICLE Source Mean square F Sig. Corrected Model 503,249 43,340,000 Intercept 60120, ,650 0,000 country 503,249 43,340,000 a. R Squared =,107. Fonte: Elaborada pela autora. Tomando por base os escores individuais das redações, principalmente no polo positivo, é possível verificar que há grande quantidade de diferentes países na extremidade dos valores positivos (Espanha, Itália, China UK, China HK, Alemanha, Polônia e Brasil) (Tabela 5.14). No polo negativo, concentram-se redações dos alunos sul-africanos (Tabela 5.13). Os resultados obtidos na dimensão 4 nos leva a pensar que as redações dos alunos sul-africanos carregam alto grau de persuasão, porém, com linguagem menos elaborada. Tabela 5.13 Redações do polo negativo na dimensão 5 N Nome do arquivo por origem Escore individual por redação 1. tskc1353.txt.latin1-3,63 2. tskc1358.txt.latin1-3,63 3. tsno1118.txt.latin1-3,63 4. tsno1228.txt.latin1-3,63 5. tsno1312.txt.latin1-3,63 6. tsno1472.txt.latin1-3,63 7. tspo1191.txt.latin1-3,63 8. tspo1192.txt.latin1-3,63 9. tspo1203.txt.latin1-3,63 Fonte: Elaborada pela autora.

145 155 Tabela 5.14 Redações do polo positivo na dimensão 5 N Nome do arquivo por origem Escore individual por redação 1. spm07007.txt.latin1 26,35 2. itve1002.txt.latin1 22,7 3. icle-br-ffrj-0049.t 22,12 4. itto1014.txt.latin1 21,6 5. cnhk1004.txt.latin1 21,01 6. geba1031.txt.latin1 19,87 7. popz5043.txt.latin1 19,04 8. cnuk4006.txt.latin1 18,9 9. icle-br-fmg-0013_1. 18, tsno1240.txt.latin1 17,86 Fonte: Elaborada pela autora. Observando os textos com escores mais altos nas duas extremidades (polo negativo e positivo) (quadros 5.9 e 5.10), é possível notar claramente a diferença: em um há organização da informação e conjunções que ajudam nessa organização, já no texto com escore negativo observamos o uso de frases mais curtas com pouca coordenação ou subordinação e nenhum uso de voz passiva. Quadro 5.9 Texto com escore mais alto no polo negativo tspo1203.txt.latin1 (escore - -3,63) Most of people are poor and they have many family or child that they can-not maneger them, so they suffer. They want money to give live at their house and if they want jobs their is no job, But at the end they get in love with other person so that they can get money to live. Their children are also a problem in the family you must just limit the child, People must tell them selves that only two child is enough I can maneger them, so other people have many child that can not have better live and at last the child are competing with other child that live nice and wear nice clothers. The poor child that live is not right the sleep with the guys that have money. Fonte: Elaborado pela autora.

146 156 Quadro 5.10 Texto com escore mais alto no polo positivo spm07007.txt.latin1 (escore 26,35) However it is true to say that there are also certain drawbacks. -Firstly, accidental injuries, damages and deaths, increase because of the unexperience of the soldiers handling the different firearms, for instance, guns, machine-guns, bazookas, riffles, barrels, etc. etc, etc; but this may be avoided if one is professional soldier. -Secondly, the idea of the English nation, German nation, French nation, Spanish nation, Irish nation, Italian nation, etc, etc, etc, is going to be completely changed, that is to say, it is going to disappear, because of the European Union and this obligue us to prepare new common army with soldiers from those countries who will be more professional; they will be more prepared technically. Moreover, this will force them to learn other languages, English, French, German, etc., to communicate with other soldiers, officers, etc., from those countries. Fonte: Elaborado pela autora Dimensões das redações argumentativas Com o intuito de responder à pergunta quais são as dimensões de variação específicas dos corpora de aprendizes?, recorremos a procedimentos estatísticos e interpretativos. Para tanto, foi necessário fatorar as variáveis e obter fatores próprios dos textos em análise para, então, interpretar os fatores e extrair as dimensões de variação próprias das redações. Os fatores que obtivemos nessa etapa da pesquisa são agrupamentos de variáveis formados pelas características linguísticas dos textos examinados e que se correlacionam de modo a permitir uma interpretação que determine a função comunicativa subjacente ao texto, a dimensão. Em vista disso, detalhamos a seguir as etapas da análise e os resultados obtidos a partir dela A fatoração das variáveis Nessa etapa, realizamos uma fatoração inicial para determinar o número de fatores ideal para esta pesquisa, ou seja, um número de fatores que possibilitasse averiguar a variação nas redações de modo significativo e passível de interpretação. Um número excessivo de fatores poderia fazer com que estes explicassem pouco sobre o modo como a variação ocorre, um número insuficiente poderia fazer com que houvesse justaposição de variáveis e dificultar a interpretação. Com os dados já carregados no programa estatístico IBM SPSS Statistics, versão 20, realizamos a primeira extração. Para tal, escolhemos no programa a função analisar, então,

147 157 redução de dimensão, fator. Primeiramente, escolhemos todas as variáveis numéricas disponíveis. Deixando apenas as variáveis nome do arquivo (código da redação) e país de origem fora do quadro de análise, porque não são variáveis numéricas. Em fator, selecionamos em descritivos, a solução inicial e clicamos em continuar. Na sequência, selecionamos extração, em método optamos por fatoração de eixo principal e em exibir, solução não rotacionada e ok (figuras ). Figura 5.1. Extração inicial no SPSS. Fonte: Elaborada pela autora.

148 158 Figura 5.2. Escolha de variáveis no SPSS. Fonte: Elaborada pela autora. Figura 5.3. Descritivos no SPSS. Fonte: Elaborada pela autora.

149 159 Figura 5.4. Extração no SPSS. Fonte: Elaborada pela autora. A realização dos procedimentos apresentados nas figuras resultou em uma tabela de comunalidades (Tabela 5.15); aqui por questões de espaço, apresentamos apenas parte dela, para exemplificar. As variáveis marcadas em amarelo são as que tiveram escore inferior a 0,2. Todas as variáveis com escore inferior a 0,2 foram eliminadas para a segunda extração.

150 160 Tabela 5.15 Amostra das variáveis da primeira extração N Variáveis Escore 1. abstrcn, acr_jpv, act_tpv, actv, adj_attr, advs, agls_psv 1, all_advl 1, all_jth 1, all_jto 1, all_nth 1, all_nto, all_th 1, all_to 1, all_vth 1, all_vto 1, alladj, allconj 1, allmodal 1, allpasv 1, allpro 1, allverb, allwh 1, allwhrel 1, amplifr, aspectpv, aspectv, atadvl, 996 Fonte: Elaborada pela autora.

151 161 Dando seguimento à nossa análise, voltamos ao procedimento inicial (o da primeira extração) e refizemos a extração, no entanto, dessa vez, ao colocar as variáveis no espaço destinado a elas, colocamos somente as que sobraram após a eliminação das variáveis com valor inferior a 0,2. Nessa nova extração, observamos que havia variáveis com valor inferior a 0,2 e que foram novamente eliminadas (Tabela 5.16); eliminamos, também, as variáveis com valor 1,0 ou maior. Realizamos todo o processo novamente somente com as variáveis que ficaram. O resultado obtido foi mais uma vez insatisfatório, pois ainda havia variáveis com valor acima de 1,0 e abaixo de 0,2, por isso realizamos todo o processo novamente, eliminando estas variáveis. Tabela 5.16 Segunda extração no SPSS N Variáveis Escore 1. nfct_nth, att_nth, rel_obj, x3_jto, atadvl, nonfadvl, rel_pipe, gen_hdg, spch_vto, x5_jto, jcmp, by_pasv, mntl_vto, existv, att_vth, humann, whiz_vbn, cognitn, be_state,162

152 spl_aux, have, it, concrtn, contrac, prcessn, x4_jto, pany, efrt_vto, causev, topicj, actv, adj_attr, advs, agls_psv 1, all_advl 1, all_jth 1, all_jto 1, all_nth 1, all_nto, all_th 1, all_to 1, all_vth 1, all_vto 1, alladj, allconj 1, allmodal 1, allpasv 1, allpro 1, allverb, allwh 1, allwhrel 1,000

153 atadvl, att_jth 1, att_nth, att_vth, be_state, by_pasv, causev, cognitn, commv,421 Fonte: Elaborada pela autora. Somente após a quarta extração é que conseguimos obter variáveis com valores aceitáveis de comunalidade. Assim, realizamos uma nova extração, porém, dessa vez rotacionada, com um gráfico de sedimentação e em proporção máxima (promax), como exemplificado nas figuras 5.5 e 5.6. base para o número de fatores Figura 5.5. Diagrama de sedimentação. Fonte: Elaborada pela autora.

154 164 Figura 5.6. Proporção máxima. Fonte: Elaborada pela autora. Constatamos que o número ideal de fatores a ser considerados era de 4 Então, realizamos a fatoração novamente, porém, na opção extração, escolhemos número fixo de fatores (4) e retiramos a opção de solução inicial (Figura 5.7). Esse procedimento resultou em uma tabela denominada matriz padrão (no SPSS), com as variáveis que restaram e seus escores em cada fator (tabela inteira no Anexo 2). Examinamos a tabela e selecionamos para cada fator as variáveis pontuadas. Sempre que uma variável obteve escore em mais de um fator, mantivemos a variável no fator para o qual ela tinha o maior valor (Tabela 5.17).

155 165 Figura 5.7. Número fixo de fatores. Fonte: Elaborada pela autora. Tabela 5.17 Escolha de variáveis para os fatores eliminados Pattern Matrix a Factor wrlength,763 n_nom,760 n,678 -,381 pany -,474 prcessn,441 causev,405 -,375 contrac -,367 pasttnse -,327 Fonte: Elaborada pela autora.

156 166 Desse modo, obtivemos os 4 agrupamentos de variáveis que formaram os 4 fatores com os quais trabalhamos, quais sejam: Fator 1: Tamanho da palavra, nominalizações, substantivos, substantivos abstratos (de processo) e verbos causativos, no polo positivo. Verbos no passado, formas contraídas e pronomes indefinidos, no polo negativo. Fator 2: Todos os adjetivos, adjetivos atributivos, razão-forma ocorrência, preposições e adjetivos atributivos topicais, no polo positivo. To em oração complementar controlada por verbos de modalidade, causa ou esforço, todos os verbos, verbos de atividade, no polo negativo. Fator 3: Verbos mentais, verbos de cognição, that utilizado em oração complementar controlada por verbo, omissão do that, verbos de comunicação, verbos dicendi e that utilizado em oração complementar controlada por verbo factivo, todos no polo positivo. Não houve variáveis no polo negativo. Fator 4: Verbos no infinitivo, adjetivos predicativos, that em oração complementar controlada por adjetivo de probabilidade, em oração complementar controlada por adjetivos de facilidade ou dificuldade (to compl adject easy/difficulty) e advérbios. Nesse fator também não houve variáveis no polo negativo. Diante dos resultados obtidos, para responder quais são as dimensões de variação próprias das redações de alunos de inglês, devemos interpretar a função comunicativa subjacente aos fatores para nomear as dimensões Interpretação dos fatores Para entender qual função é executada pela correlação entre as características linguísticas dos textos nos corpora, é preciso examinar quais significados elas conferem ao texto. Para exemplificar, tomemos as características de um texto narrativo; em um texto dessa natureza, encontramos muitos verbos no passado, verbos no presente perfeito e pronomes em terceira pessoa. Os verbos no passado são utilizados na língua para falar sobre o que aconteceu, normalmente para contar algo. O tempo presente perfeito é utilizado para dar dinamismo a ações passadas, em geral, também para contar sobre algo e, ao mesmo tempo, enfatizar a ação

157 167 ocorrida. Os pronomes de terceira pessoa são utilizados para relatar o que o outro faz ou fez. Ora, considerando o propósito comunicativo de uma narração, podemos constatar que o que se faz é contar (histórias) sobre algo ou alguém, assim, a presença desses pronomes e tempos verbais torna-se quase que obrigatória. Isso significa que essas características linguísticas utilizadas juntas fazem com que um texto seja narrativo, ou seja, pertencente à dimensão 2 da preocupação com a narrativa de Biber (1988). Faremos o mesmo tipo de análise interpretativa com as características dos 4 fatores encontrados. Dispomos as informações sobre os fatores nas tabelas , relativas às variáveis, sua pontuação no fator, descrição da característica, exemplo de uso, categoria/uso e explicações sobre a função exercida pelas características. Após as tabelas referentes a cada fator, discutimos a informação que elas contêm e apresentamos nossa interpretação e nome para a dimensão. O fator 1 é apresentado na Tabelas Tabela 5.18 Variáveis do fator 1 e exemplos Fator 1 Escore Características Exemplo The money the government spent in Extensão média prisons could have been used in charity wrlength 0, 763 das palavras societies to assist disadvantaged people (palavras mais like old people, blinds, crippled people and longas) orphans. Furthermore, people's dreams are being defered. n_nom 0, 760 Nominalizações The drawbacks of abortion are that this seems to be a kind of murder, n 0, 678 Substantivos The invention of computer was in sixties. prcessn 0, 441 Especially in the leading bodies, that is the Substantivo parliament and the trade unions, the seats abstrato ou de should be divided equally to make the processos balance right. causev 0, 405 This estate made history by being the first Verbos to assist it's workers to produce their own causativos wines - bottled under the New Beginning

158 168 pasttnse -0, 327 contrac -0,367 pany -0,474 Verbos no tempo passado Formas contraídas Pronome indefinido label. one day I happened to find out that D, I and Y were not the initials of the owner but an acronym meaning Do-it-yourself. This explained at least why each store with the letters D.I.Y. on its sign looked a bit different from the outside. They've abandoned public education already so even if the educational administration do something revolutional, they would not pay much heed to it. From her behaviour it is obvious, that Mrs Morel wanted somebody to posses. Fonte: Elaborada pela autora. Devido às características presentes no polo positivo do fator 1, observamos que as características estão relacionadas a expressão de conteúdo e elaboração. A característica com maior escore e, portanto, maior peso é a extensão média da palavra. Essa característica indica uso de palavras menos frequentes do inglês, normalmente mais letradas, muitas de origem latina e que em alguns casos pode indicar precisão na escolha lexical. Os substantivos, substantivos abstratos e nominalizações tipicamente apresentam-se como integradores de informação e carregam maior quantidade de conteúdo elaborado, o que se relaciona com o texto escrito, como na dimensão 1 de Biber (1988). Já no polo negativo, temos o verbo no passado com o maior escore. O passado é visto como característica que pode indicar ênfase na narração. Já as variáveis forma contraída e pronome indefinido costumam estar associados a formas reduzidas de informação e conteúdo generalizado, o que se relaciona com aspectos da fala. Considerando essas características, nomeamos essa dimensão escrita letrada versus oralizada narrativizada. A Tabela 5.19 apresenta o fator 2.

159 169 Tabela 5.19 Variáveis do fator 2 e exemplos Fator 2 Escore Características Exemplos alladj,685 Todos os adjetivos One can live by such a beautiful moment in time and nourish the inside with it till the end of one's days. adj_attr,592 Adjetivo atributivo Selfish people often put their empty words in nice ways. Their highlight of the day was Sunday-dinner, followed by a nice ttr,483 diferentes) Número de palavras diferentes. Razão/forma and cosy evening in front of the ocorrência television. (20 palavras 18 são The situation in the Czech republic is prep,339 Preposições not the same as a couple of years ago. Repace also concluded that the ban topicj,323 Adjetivos atributivos on smoking in public areas has a topicais positive relationship to the respiratory health of the public. to em oração complementar where she discusses the anguish efrt_vto -,307 controlada por people may feel if they are not like verbos de everyone else, if they have failed to modalidade, causa reach the standard of "normality". ou esforço allverb -,560 Todos os verbos Today's women study all sorts of complicated scientific fields originally restricted only to men. actv -,620 Verbos de atividade As they think that money opens all the doors to the happiness, Fonte: Elaborada pela autora.

160 170 Observando as características e suas funções, podemos notar que a presença massiva de adjetivos mostra uma tendência do texto à descrição, isso é ainda mais acentuado pela presença da razão/forma ocorrência que confere densidade lexical ao texto, as preposições indicam integração de conteúdo informacional e os adjetivos topicais mostram escolhas tipicamente relacionadas à descrição, no polo positivo. No polo negativo temos o uso de to controlado por verbos, que, além de ser informacional (pela integração da oração), denota uma tendência ao posicionamento. No entanto, junto com esta característica, temos o uso de verbos gerais que aponta para textos com estilo mais verbal e generalizado para exprimir informação e ações. A última categoria, a dos verbos de atividade, mostra que uma ação gera um resultado. Temos ações promovidas pelos verbos (gerais e de atividade) apresentadas em conjunto com o conteúdo informacional ( to controlado por verbos) e verbos de ação. Por conta disso, decidimos chamar essa dimensão de escrita com foco na descrição versus escrita com foco no agir. O fator 3 é apresentado na Tabela Tabela 5.20 Variáveis do fator 3 e exemplos Fator 3 Escore Características Exemplos mentalv, 668 Verbo mental Yes, sometimes I believe it does. prv_vb, 659 Verbos de cognição Most of us assume that there are living creatures on other planets, maybe even similar to us. I agree that advertising may be that utilizado em useful, interesting or funny but in vcmp, 513 oração complementar fact, it is a big industry promoting controlada por verbo things and making a great deal of money but certainly not art. that_del, 460 Omissão de that I know I'll never know that if I don't go to Thailand. (I know that I ll ) commv, 422 Verbos de Some people say college life is

161 171 comunicação pub_vb, 401 Verbos dicendi that utilizado em fact_vth, 392 oração complementar controlada por verbo factivo very easy. It's ridiculous and wrong. This explains in part why there are so many recidivists. I remember that the days went by so fast. Fonte: Elaborada pela autora. Ao analisar as funções das características do fator 3, deparamo-nos com um grupo de variáveis muito influenciado pelos verbos. Não houve polo negativo para esse fator. A presença de verbos mentais e cognitivos e uso do that controlado por verbos têm que ver com expressão de opinião e ideias, os verbos comunicativos e dicendi e o uso de that com verbo factivo, denotam posicionamento com relação a relatar algo. A omissão de that relaciona-se à simplificação que normalmente faz com que a informação seja mais generalizada e direta. Unindo a expressão de ideias para relatar algo de forma mais generalizada e verbos ligados à expressão de opinião e ideias, nomeamos essa dimensão como escrita com foco no pensamento e no relato. A Tabela 5.21 apresenta o fator 4. Tabela 5.21 Variáveis do fator 4 e exemplos Fator 4 Escore Características Exemplos inf,482 Verbo infinitivo When you're good looking you often have good chances to do well in life To reduce smoking in our pred_adj,420 Adjetivo predicativo community,i believe that education is important. that em oração lkly_jth,367 complementar So it is possible that in the future the Finnish school children will

162 172 x4_jto,358 advs,318 Fonte: Elaborada pela autora. controlada por adjetivo de probabilidade to compl - adject (ease/diffi) em oração complementar controlada por adjetivos de facilidade ou dificuldade Advérbios (que não estão em outras categorias) have to drink creamy milk even though all the experts agree that it is hazardous for health, In the early days it was easy to find it, because qualification demand was less. It is literally overwhelmed by discoveries, historical events that are really worth putting down in history. No fator 4, novamente, não tivemos um polo negativo, todas as variáveis se agruparam no polo positivo. A maioria das variáveis revelam algum tipo de posicionamento e buscando qualificar a informação dada. Os adjetivos predicativos denotam uma tendência ao uso de frases menos elaboradas com qualificações diretas. O uso de to infitivo ligados aos advérbios denotam tentativa de persuasão, há 68 ocorrências dessa característica em nosso corpus de estudo, vejamos alguns exemplos (Quadro 5.11), retirados do ICLE. Quadro 5.11 advérbios + to infinitivo I am not taking into account special occasions, such as: going out with a girl friend to a cinema; sometimes to go with old friends to the theatre does not sound like a bad idea at all or one can kill a lot of spare time doing that. <c:\corpora\icle\russian\rumo2021.txt> To form an opinion on subjects like drugs, abortion... it is best to know something more about them, possibly to have experience in what ever way. <c:\corpora\icle\dutch\dban3059.txt>

163 173 The answer is perhaps to provide single women with a wide range of psychological and medical help, to make them completely aware of their choice. <c:\corpora\icle\italian\itve1006.txt> Especially in the leading bodies, that is the parliament and the trade unions, the seats should be divided equally to make the balance right. <c:\corpora\icle\finnish\fijo3007.txt> Fonte: Elaborado pela autora. Acreditamos que, nessa dimensão, estamos lidando com funções da linguagem que mostram o posicionamento do locutor por meio da qualificação do objeto ou situação, dessa forma, optamos por nomear essa dimensão escrita qualificativa. Além de discutir as dimensões de variação das redações de inglês, consideramos relevante observar que os verbos modais que costumam ser típicos de textos argumentativos não apareceram como parte das características linguísticas das 4 dimensões identificadas. O que, aparentemente, aproxima mais nossos textos (corpora de estudo) da argumentação típica são as características ligadas à escrita letrada, ao foco no agir e no pensamento. No entanto, nosso propósito não era encontrar o que é tipicamente esperado da argumentação, mas, sim, o que, de fato, faz parte da argumentação em uso. Tendo extraído as dimensões de variação de nosso estudo, para complementar a resposta à nossa pergunta de pesquisa, apresentamos a seguir como as dimensões se apresentam em relação à origem do aluno Dimensão 1: escrita letrada versus escrita narrativizada e oralizada Na dimensão 1 das redações de alunos de inglês encontramos características ligadas à elaboração, ou seja, texto informacional bem organizado e com escolha lexical bem definida, no polo positivo. No polo negativo, as características agrupadas se relacionam à narrativa, e à simplificação e generalização da informação ligada à fala. Nessa dimensão, observando a Tabela 5.22, constata-se que as redações de alunos da China (Hong Kong), da Polônia e do Brasil mostram-se as mais elaboradas, enquanto as redações dos alunos alemães, tchecos e japoneses aparecem com características de fala e narração. O polo da fala e narrativa sugere

164 174 que os textos dos alunos trazem uma nuance da argumentação que procura convencer o leitor de modo diferente daquele apresentado no texto mais elaborado, assim, ambos trazem a função intrínseca de convencer da argumentação, mais a variação linguística que possibilita adaptação a diferentes contextos de situação. Tabela 5.22 Escore médio por origem na dimensão 1 N País 1. china hk 5, polony 1, brazil 1, locness 0, italy 0, turkey 0, china uk 0, france 0, spain -0, south africa -0, bulgary -1, netherland -1, sweden -1, finland -1, russia -1, norway -1, japan -2, czec -2, germany -3,7528 Escore médio Fonte: Elaborada pela autora. As redações dos alunos japoneses mostram constância no que diz respeito à sua caracterização como mais informal e falada, pois, nas dimensões do inglês discutidas em 5.1.1, a classificação das redações japonesas já apresentava essa tendência. Na dimensão 1, elas aparecem no topo do polo positivo como as mais

165 175 oralizadas. O mesmo podemos afirmar sobre as redações dos alunos chineses (Hong Kong), pois tanto no mapeamento das dimensões do inglês quanto nas dimensões específicas das redações se mostram bastante elaboradas e informacionais (mais até que as de falantes nativos do LOCNESS). Ainda que no caso das redações japonesas e chinesas haja alguma consistência no que diz respeito a características linguísticas próprias das redações de alunos de determinada origem, também nas dimensões específicas das redações (já tivemos resultados parecidos no mapeamento das dimensões do inglês) a origem do aluno explica pouco a variação. Observando o teste estatístico realizado no SPSS, versão 20, na Tabela 5.23, vemos que há variação F (Sig = 0), mas que a origem do aluno explica apenas 30% da variação (R² = 0,300). Tabela 5.23 Anova da dimensão 1 Tests of Between-Subjects Effects Dependent Variable: Fator_1 Source Mean square F Sig. Corrected Model 2268, ,583 0,000 Intercept 1025,920 69,908,000 country 2268, ,583 0,000 a. R Squared =,300. Fonte: Elaborada pela autora. Nos escores individuais das redações, notamos que no polo positivo há predominância das redações de alunos da China (Hong Kong), o que mostra uma tendência a textos com características mais informacionais e elaborados estar relacionados à origem (nesse caso, China); no entanto, quando observamos o polo negativo, podemos concluir que há redações de alunos de diversas origens como: Alemanha (geau), Japão (jpko), falantes nativos de inglês (locness), Rússia (rumo) e Noruega (nouo). A redação do LOCNESS, que tem escore negativo de -14,67, por exemplo, tem características ligadas à narração e fala, no entanto, na média dos países, o LOCNESS aparece no polo positivo. Portanto, as características linguísticas das redações não parecem variar de acordo com a origem do aluno (Tabelas 5.24 e 5.25).

166 176 Tabela 5.24 Altos escores individuais das redações N Nome do arquivo por origem Escore individual por redação 1. cnhk1111.txt.latin1 16,69 2. cnhk1502.txt.latin1 16,09 3. cnhk1012.txt.latin1 16,05 4. cnhk1509.txt.latin1 15,9 5. cnhk1215.txt.latin1 15,81 6. cnhk1036.txt.latin1 15,78 7. cnhk1258.txt.latin1 15,75 8. cnhk1209.txt.latin1 15,61 9. cnhk1019.txt.latin1 15,2 10. cnhk1256.txt.latin1 15,15 Fonte: Elaborada pela autora. Tabela 5.25 Baixos escores individuais das redações N Nome do arquivo por origem Escore individual por redação 1. jpko2007.txt.latin1-14,53 2. tskc1345.txt.latin1-14,66 3. locness txt -14,67 4. geau1049.txt.latin1-14,73 5. rumo6023.txt.latin1-15,01 6. geau1015.txt.latin1-16,23 7. geau3061.txt.latin1-16,68 8. nouo1063.txt.latin1-16,75 9. geau2018.txt.latin1-16, rumo4011.txt.latin1-17,11 Fonte: Elaborada pela autora.

167 177 Apenas para elucidar as diferenças entre esses textos e, ao mesmo tempo, preparar o caminho para responder à pergunta de pesquisa 3, trazemos uma amostra dessas redações (Quadro 5.12). Quadro 5.12 Amostra de redações com alto e baixo escore individual cnhk1111.txt.latin1 (escore: 16,69) Many people believe that the import of professionals may help to increase Hong Kong's competitiveness.<*><r>. Since the world development changes rapidly, the import of professionals can help to retain and improve the working standard. The next consideration is the shortage of labour. The import of professionals may help to lessen the problem of labour shortage, especially in marketing and business fields. According to<r>, the department-head level in marketing, sales and business development have the most serious shortages. About 30% of companies found they had difficulties in filling the positions. A third argument which in favour of professional importation is the allowance of cultural exchange. As Hong Kong has returned to China. Putonghua and Chinese culture become more and more important. rumo4011.txt.latin1 (escore: -17,11) He was 12 years old, weak, sick and poor. He was 12. He cursed like a truck driver. You may wonder who taught him this? And I'll answer - his parents. His family was the reason of his bad behaviour. He was the only child. Patents simply forgot about him. He was out all days long. He was together with his friends, who taught him to smoke, to drink, to play cards, to do drugs. Did he like it? Yes. He just showed off. He wanted to be strong and do a lot in his life. Being on the street could he do that? Could he dream of a high education, mastering a trade or applying for a job. He couldn't. It was easier for him to steal things. He stole everything, everything which could be stolen. I don't think that he became happier after buying VCR machine, drinking a six-pack a day, shelling out his money like mad. He was the same weak guy, but then 15 - year old guy, who had some problems with his lungs. Doctors said he had asthma. He understood that pretty well. Did he care? Sometimes yes. Fonte: Elaborado pela autora. Coincidentemente, a redação rumo4011, apesar de termos escolhido uma parte diferente dela, é a redação com escore negativo mais alto também no mapeamento das dimensões do inglês na dimensão 1, o que não é de surpreender, já que algumas das principais características da oralização, dimensão 1 de Biber (1988) estão presentes em nossa dimensão 1, escrita oralizada e narrativizada, principalmente nos aspectos informalidade e uso do tempo passado.

168 Dimensão 2: escrita com foco na descrição versus escrita com foco no agir Na dimensão 2 observamos características linguísticas que mostram certo posicionamento do locutor a respeito de um assunto, no entanto, ele é ligado à descrição elaborada com características como: adjetivos, adjetivos atributivos, adjetivos topicais e razão/forma ocorrência, além do uso de orações preposicionadas que contribuem para a integração da informação descritiva. Do outro lado, no polo negativo temos características que se relacionam ao posicionamento; esse posicionamento pede por uma ação. Na Tabela 5.26, podemos notar que as redações com maior tendência descritiva são as dos alunos poloneses e as de maior foco na ação são as dos sul-africanos. Assim, temos textos argumentativos que buscam convencer alguém por meio da descrição, colocando na cabeça do leitor uma imagem e, ao mesmo tempo, podemos ter textos que procuram convencer, convidando a fazer algo em relação ao assunto discutido. Novamente, observamos que a argumentação mantém sua função, porém, sua execução pode ocorrer de maneira diferenciada. Tabela 5.26 Escore médio por origem na dimensão 2 N Country 1. polland 2, france 1, brazil 1, italy 1, bulgary 0, finland 0, russia 0, locness 0, germany 0, netherland 0, spain 0, czec 0, china hk -0,0144 Mean

169 sweden -0, china uk -0, norway -1, turkey -1, japan -2, south africa -4,5639 Fonte: Elaborada pela autora. No teste estatístico para a dimensão 2, observamos que a variação é significativa também F (Sig = 0), porém, novamente, vemos que o resultado do R² (0,142) aponta para a explicação da variação por origem do aluno de apenas 14,20%. Não podemos afirmar com segurança, porque esses registros variam, mas sabemos, agora, que tem pouco a ver com a origem do aluno (Tabela 5.27). Tabela 5.27 Anova da dimensão 2 Tests of Between-Subjects Effects Dependent Variable: Fator_2 Source Mean square F Sig. Corrected Model 1170,828 59,586,000 Intercept 61,527 3,131,077 country 1170,828 59,586,000 a. R Squared =,142. Fonte: Elaborada pela autora. Nos escores individuais para as redações, também obtivemos resultados similares, pois, na extremidade do polo positivo, temos redações de 9 origens diferentes (considerando as 10 mais altas e as 10 mais baixas) e, na extremidade do polo negativo, 3 (tabelas 5.28 e 5.29).

170 180 Tabela 5.28 Escores altos (dimensão 2) N Nome do arquivo por origem Escore individual por redação 1. noos1047.txt.latin1 18,93 2. swul7023.txt.latin1 17,65 3. itrs2024.txt.latin1 17,63 4. geba1057.txt.latin1 17,54 5. rumo2018.txt.latin1 17,49 6. geba1029.txt.latin1 17,44 7. bgsu1251.txt.latin1 17,12 8. fruc3096.txt.latin1 16,91 9. cnhk1112.txt.latin1 16, popz4028.txt.latin1 16,35 Fonte: Elaborada pela autora. Tabela 5.29 Escores baixos (dimensão 2) N Nome do arquivo por origem Escore individual por redação 1. tsno1307.txt.latin1-15,55 2. tskc1344.txt.latin1-15,57 3. tsno1309.txt.latin1-15,86 4. tsno1232.txt.latin1-16,21 5. tsno1233.txt.latin1-16,27 6. cnhk1630.txt.latin1-18,48 7. cnhk1137.txt.latin1-19,23 8. jptf1008.txt.latin1-19,82 9. tspo1207.txt.latin1-21, tsno1429.txt.latin1-22,84 Fonte: Elaborada pela autora. Para exemplificar as diferenças e variação entre os textos, apresentamos no Quadro 5.13 amostras dos textos com escores mais altos em ambos os polos.

171 181 Quadro 5.13 Amostra de redações com alto e baixo escore individual (dimensão 2) noos1047.txt.latin (escore: 118,93) Europe can be divided into two major parts: western peninsular Europe and eastern contnental Europe. The higest altitudes and the most rugged relief are found in the Alps ( Mt.Blanc ft is the highest point of Europe), The Pyrenees, the Sierra Nevada, and the Caucasus Mountains all in southern Europe. Most of the European rivers serve as major transportation routes and interconnected by networks of canals. Lying south of the Arctic Circle and north of the tropics, Europe exhibits a wide range of climates. Four regional climates can be distinguished : the martime climate of the west with abundant rainfall, moderate winter and warm to hot summers ; the transitional climate of central Europe with in. of annual rainfall, cold winters, and warm summers; the continental climate of the northeast with less abundant rain, long and cold winters and wet summers; and the Mediterranean climate of southern coastal Europe with little rainfall, mild and wet winters and hot and dry summers. tsno1429.txt.latin1(escore: -22,84) I agree that it has done more harm because in the oldern days even Now women were not allowed to be the head of the house or the leader at work. Most of the work were done by the male's they were allowed to become Soldiers, Policeman's, work in the farm etc. In Botswana women's are not allowed to became Soldiers because they believe that becoming a soldier is a man's work. Before they can be allowed to do something they have to ask for the permission to their husband's. In the Oldern days Our grandparents were not even allowed to work their work was to do house hold and to cook to their husbands and to feed the Childrens they had no equal rights and the husband was the head of the house. Whenever you delivered food to your husband you have to knee down and hand over the food. Fonte: Elaborado pela autora Dimensão 3: escrita com foco no pensamento e no relato A dimensão 3 prima pela quantidade de características ligadas aos verbos de vários tipos, conferindo um estilo verbal a essa dimensão; os verbos presentes nessa dimensão relacionam-se à expressão de opinião, atitude e emoção. Além disso, os verbos dicendi e os usos de that em orações controladas por verbos mostram que também há um empenho do autor em relatar ações e expressar sua opinião. Nessa dimensão, temos as redações dos alunos japoneses como as de maior escore em termos de opinião, acreditamos que isso pode ocorrer devido à

172 182 interferência da linguagem mais informal e simplificada empregada, vista na dimensão 1, o que sugeriria maior uso de verbos. No polo negativo, ou seja, com menor preocupação com a expressão de ideias, encontram-se os textos dos alunos chineses (UK), como podemos observar na Tabela A expressão de opinião pode ser uma das maneiras de se exercer a função de convencer o outro a respeito de um ponto de vista, mostrando outra face da argumentação. Tabela 5.30 Redações por origem na dimensão 3 N Country Mean 1. japan 3, norway 1, czec, turkey, russia, sweden, finland -, france -, italy -, south africa -, china hk -, netherland -, locness -, spain -, bulgary -, germany -, brazil -, polony -1, china uk -1,1831 Fonte: Elaborada pela autora. Na dimensão 3, assim como nas duas dimensões anteriores, há variação significativa F (Sig = 0), entretanto, novamente, a variação é bem pouco explicada

173 183 pela origem dos alunos, apenas 6,8% (Tabela 5.31). Tabela 5.31 Anova da dimensão 3 Tests of Between-Subjects Effects Dependent Variable: Fator_3 Source Mean Square F Sig. Corrected Model 461,423 26,545,000 Intercept 56,885 3,273,070 country 461,423 26,545,000 a. R Squared =,068. Fonte: Elaborada pela autora. Nos escores individuais para cada redação, observamos a mesma tendência à variação linguística não explicada pela origem do aluno (tabelas 5.32 e 5.33). Tabela 5.32 Escores altos (dimensão 3) N Nome do arquivo por origem Escore individual por redação 1. tsno1034.txt.latin1-8,59 2. popz4038.txt.latin1-8,66 3. bgsu1075.txt.latin1-8,7 4. tsno1260.txt.latin1-9,17 5. popz3049.txt.latin1-9,18 6. cnhk1019.txt.latin1-9,19 7. noos1047.txt.latin1-9,19 8. popz5037.txt.latin1-9,41 9. cnhk1252.txt.latin1-9, tsno1287.txt.latin1-9,56 Fonte: Elaborada pela autora.

174 184 Tabela 5.33 Escores baixos (dimensão 3) N Nome do arquivo por origem Escore individual por redação 1. jpsw4020.txt.latin1 32,3 2. tspo1205.txt.latin1 23,5 3. itrs2010.txt.latin1 20,49 4. jptf1029.txt.latin1 20,29 5. jpsw3015.txt.latin1 19,61 6. jpwa3020.txt.latin1 18,73 7. jpko2023.txt.latin1 18,1 8. jpsw2003.txt.latin1 17,81 9. popz2033.txt.latin1 17, jpsw1018.txt.latin1 17,03 Fonte: Elaborada pela autora. Observando as amostras abaixo podemos ver que na redação do aluno japonês (Quadro 5.14) a argumentação apoia-se em verbos que mostram sua opinião sobre a língua inglesa, como ele se posiciona diante da necessidade de aprender o idioma, justifica a necessidade proposta e utiliza o verbo to need para procurar convencer o interlocutor de sua opinião. Já a redação sul-africana (Quadro 5.15) conta com um número menor de verbos e apresenta maior conteúdo informacional. Quadro 5.14 Redação de aluno japonês jpsw4020.txt.latin1 (escore: 32,3) I think that Japanese people certainly young people need to master English to communicate with other country people. I hear that the language which is spoken best in the world is Chinese, but the language which is used best in the world is English. So we need to learn to use English as a second language. I think that people need to learn English when they are children to speak in exact pronunciation, to hear and listen the native's English. I think that it is enough old to learn grammar, but it is too late to speak, talk, hear, and listen English. Fonte: Elaborado pela autora.

175 185 Quadro 5.15 Redação de aluno sul-africano tsno1287.txt.latin1 (escore: -9,56) African countries become vanerable to HIV/AIDS because of social, economic and political problems the countries expirence. Most African leaders misuse their ruling powers. Some leaders tend to oppress their people one way or the other and this end up creating tensions and tribal wars in countries. Tribal wars may also arise due to favouritism amongst tribes as a result the countries economies may become low. Low economy makes countries to be exposed to diseases such as HIV/AIDS. The money being spent on buying and maintaining damaged facilities, and buying weapons during wars would have been used for buying drugs for HIV/AIDS and helping prevent the disease. Fonte: Elaborado pela autora Dimensão 4: escrita qualificativa A dimensão 4 foi a mais difícil para definir, devido ao acúmulo de características ligadas à qualificação, no entanto, ao examinar mais a fundo a presença dos adjetivos predicativos, dos advérbios e sua relação com o uso do infinitivo, foi possível perceber que o posicionamento e as opiniões apresentadas não visavam a apenas convencer o interlocutor, mas, sim, qualificar os objetos da discussão. Assim como na dimensão 3, não houve agrupamento de características no polo negativo, portanto, as redações que se apresentam com valores negativos possivelmente têm menor uso de palavras e estruturas linguísticas ligadas à qualificação. Nessa dimensão as redações dos alunos poloneses se mostram como mais qualificativas, enquanto que as sul-africanas e espanholas aparecem com menor preocupação com a qualificação. Na Tabela 5.34 podemos observar como as redações de alunos de diferentes origens se distribuem ao longo da dimensão 4. Diante da variação encontrada nessa dimensão, fizemos o teste estatístico para determinar em que nível era significativa a variação e quanto desta era explicada pela origem do aluno. Uma vez mais o resultado de Sig = 0, F mostra que a variação é significativa e que, no entanto, na dimensão 4, apenas 7% da variação é explicada pela origem do aluno (Tabela 5.35). Considerando os resultados obtidos e as características ligadas à qualificação, acreditamos que a origem do aluno, de fato, teria pouco peso, pois a variação está ligada ao modo como o locutor expressa sua posição qualificando o tema proposto. Caso as características tivessem maior relação com a sintaxe (estrutura gramatical) apenas, talvez houvesse maior peso da

176 186 origem do aluno devido à transferência, no entanto, essa variável não é abarcada por este estudo. Tabela 5.34 Escore médio por origem na dimensão 4 N Country Mean 1. polony 1, sweden 0, norway 0, finland 0, brazil 0, rusia 0, bulgary 0, france 0, netherland 0, china uk 0, germany 0, italy 0, czec 0, japan 0, turkey -0, locness -0, china hk -0, spain -1, south africa -1,3218 Fonte: Elaborada pela autora.

177 187 Tabela 5.35 Anova da dimensão 4 Tests of Between-Subjects Effects Dependent Variable: Fator_4 Source Mean square F Sig. Corrected Model 190,938 27,202,000 Intercept 36,745 5,235,022 country 190,938 27,202,000 a. R Squared =,070. Fonte: Elaborada pela autora. Ao tabelar os resultados individuais dos escores das redações (tabelas 5.36 e 5.37), vemos que nos dois polos vários países ocupam as extremidades positiva e negativa da dimensão 4, ou seja, individualmente, elas se agrupam pelas características linguísticas e não pelo país de origem. Tabela 5.36 Escores altos (dimensão 4) N Nome do arquivo por origem Escore individual por redação 1. geau1039.txt.latin1 26,81 2. icle-br-ffrj-0034.t 16,06 3. fruc1102.txt.latin1 15,48 4. icle-br-pucrj ,56 5. nobe1023.txt.latin1 14,3 6. rumo1008.txt.latin1 14,12 7. icle-br-ffrj-0042.t 13,63 8. fiab6011.txt.latin1 13,22 9. nohe1001.txt.latin1 12, popz3048.txt.latin1 12,72 Fonte: Elaborada pela autora.

178 188 Tabela 5.37 Escores baixos (dimensão 4) N Nome do arquivo por origem Escore individual por redação 1. itrs1030.txt.latin1-5,81 2. geau2027.txt.latin1-5,83 3. geau2017.txt.latin1-5,84 4. cnhk1174.txt.latin1-5,93 5. tsno1222.txt.latin1-5,95 6. tsno1167.txt.latin tsno1411.txt.latin1-6,06 8. cnhk1621.txt.latin1-6,25 9. fruc1083.txt.latin1-6,6 10. tskc1360.txt.latin1-7,03 Fonte: Elaborada pela autora. Apresentamos amostras dos dois textos com os escores mais altos em ambos os polos. O texto do aluno alemão (Quadro 5.16) mostra como os advérbios e infinitivos (principalmente) guiam a persuasão, de um lado afirmando como o carro é útil e de outro mostrando (posicionando-se) o que se pode fazer para não utilizá-lo tanto (argumento e contra-argumento). O texto sul-africano (Quadro 5.17) não tem nenhuma das características dessa dimensão, é mais descritivo que argumentativo. Quadro 5.16 Redação de aluno alemão geau1039.txt.latin1 (escore: 26,81) On the one hand in some cases the car is a really useful thing when you think of transporting things from one place to another, although sometimes it would also be possible to go by feet or to go by bike. People are too much accustomed to the car. While they think about messures to protect the environment they use their car without thinking of the consequences. Admittedly, the car is a very comfortable thing but wouldn't it be also possible to go by train or by bus in some cases? Or wouldn't it be possible to have only one car in the family? People today are very lazy; they are always pressed for time so that they are obliged to have their own car. While the head of the family goes to work by car the housewife needs her own car to bring her children to the kindergarden, to school or to the piano lessons. So, why should they sell one of their cars? Fonte: Elaborado pela autora.

179 189 Quadro 5.17 Redação de aluno sul-africano tskc1360.txt.latin1 (escore: -7,03) The desease is caused by unprotected sex. The desease comes first with sexual transmitted desease like syphillis, pubic lies. Than it will follow with HIV -which means Human immunodeficiency virus. Human - Is the body of the human. immunodeficiency - The army of the body that fight the bacteria. virus - Is the collection of illness. When the army of the body can not fight the virus in the body, the body will get weak. Aids will start. Aids. Fonte: Elaborado pela autora. Concluindo, as redações dos alunos variam de acordo com 4 dimensões relacionadas à argumentação, mostrando, assim suas nuances, quais sejam: dimensão 1 escrita letrada versus escrita narrativizada e oralizada; dimensão 2 escrita com foco na descrição versus escrita com foco no agir; dimensão 3 escrita com foco no pensamento e no relato; e dimensão 4 escrita qualificativa. Embora todas essas dimensões estejam presentes nas redações dos alunos isso não significa que todos os tipos são considerados adequados, dependendo do propósito e contexto de situação; no entanto, acreditamos que conhecer essa variação seja relevante para que o aluno possa aperfeiçoar sua escrita e escolher conscientemente como vai apresentar seu texto, de acordo com sua necessidade. Por isso, acreditamos que as atividades sugeridas possam ser utilizadas para ensinar quaisquer das características encontradas nas dimensões de variação das redações. Não obstante nosso estudo tenha resultado no levantamento de 4 dimensões de variação, por questões de tempo e espaço e porque o procedimento é o mesmo para quaisquer das dimensões, apresentamos os procedimentos e a análise para criar atividades e ensinar a variação presente somente na dimensão 1 das redações dos alunos, qual seja: escrita letrada versus escrita narrativizada e oralizada Aplicação da AMD em atividades didáticas A aplicação da AMD no ensino não é novidade, já há materiais de ensino ou práticas de sala de aula, como, por exemplo, a conscientização sobre a variação dos textos, sendo utilizados. O que pouco se encontra são trabalhos que mostrem como os dados e resultados obtidos na AMD podem ser utilizados para a extração de

180 190 conteúdos que focarão características linguísticas específicas e baseadas em uso de textos autênticos. Esta pesquisa almeja preencher essa lacuna e responder à seguinte pergunta de pesquisa: Dados os resultados obtidos na AMD dos corpora de aprendizes, como e quais conteúdos podem ser extraídos para aplicação em atividades didáticas? Para tanto, apresentamos as análises realizadas para selecionar os conteúdos para ensinar a variação na escrita de textos argumentativos em inglês. Para as atividades propostas, adotamos a dimensão 1 das redações dos alunos de inglês de nível avançado. No caso da dimensão 1 das redações, acreditamos que as características linguísticas observadas no polo positivo, o da escrita letrada, costuma ser um tipo de escrita privilegiada em exames de proficiência e decisivo para que uma redação seja bem avaliada (CROSSLEY; MACNAMARA, 2011a; 2011b), devido à riqueza vocabular, uso de nominalizações, palavras mais longas etc. Assim, aproveitamos o fato de esse polo na dimensão 1 representar um tipo de argumentação potencialmente relevante para o aluno de inglês e apresentamos atividades didáticas visando a ensinar as características observadas na escrita elaborada. Em contrapartida, no polo negativo da dimensão 1 das redações encontra-se a argumentação influenciada por características da narrativa e fala, que, embora não seja tão bem vista em termos acadêmicos, trata-se de uma nuance útil da argumentação por ser uma linguagem considerada mais simplificada e de uso mais cotidiano. Desse modo, as atividades também trazem essas características linguísticas, com textos e sentenças que representem a linguagem observada nos dois polos, possibilitando a comparação e percepção das diferenças principais entre elas. As atividades que apresentamos nesta tese são destinadas a alunos nos níveis C1 e C2 do Common European Framework, por duas razões: a) esses dois níveis são considerados os mais avançados, portanto, nos quais a exigência de aperfeiçoamento da escrita é maior; b) este estudo é baseado em redações de alunos de inglês de nível avançado. Os enunciados das atividades são apresentados em português porque esta tese foi desenvolvida nessa língua, no entanto, para o nível proposto as atividades devem ser propostas em inglês.

181 Seleção dos conteúdos para as atividades de familiarização As atividades de familiarização são aquelas que objetivam levar o aluno a perceber que há diferenças entre os textos apresentados e quais são essas diferenças. Apresentaremos a seguir as análises realizadas para obter os conteúdos para aplicação nas atividades de familiarização (quadros ). Quadro 5.18 Atividade 1 Leia os dois parágrafos abaixo e responda as perguntas que seguem os textos. Texto 1 So there s nothing wrong with technology, it wouldn t harm a child s imagination. Well there is more to it; children nowadays find toys or games on the internet that don t leave place for them to invent, for example I remember I used to play with this big yellow truck, when I was a little girl, and I imagined that the couch was a highway full of obstacles, and that I had to overcome all of them with my mighty truck, however children today own a truck and the highway all together, and they just need to push a button for the truck to move through it, it doesn t leave room for imagination. And what s more kids must be prepared for the coming world that they'll inhabit. So they need to play in the street like our old days, and socialize, make friends, not just stay at their homes playing with a computer, there's plenty of time to learn how to text-message or try to play resident evil. It's important for children enjoy the wonders of life for as long as possible. Texto 2 In recent years there has been a widespread concern that the flood of new technology and the great value attributed to science are responsible for taking space of dreaming and imagination in modern society. A variety of arguments have been put forward about this issue. This essay will consider arguments for supporting the idea that creativity is diminishing and point some failures in the basis of these arguments. It will then put forward reasons for sustaining the belief that science and technology are creative tools. It has been argued that our generation is being flooded by information coming from televisions and computers. Most children, so the argument goes, play videogames, which demands little thinking and creativity. However, receiving a great amount of information cannot be pointed as cause of lack of dreaming or imagination. Quite the opposite, all great writers, painters and philosophers were first and foremost people with a great curiosity who read had read extensively and exercised their curiosity to the most. Os textos tratam do mesmo tema? Qual/quais?. Como você chegou a essa conclusão? O parágrafo do texto 1 parece mais letrado ou mais conversacional? Por quê? O parágrafo do texto 2 parece mais letrado ou mais conversacional? Por quê? Fonte: Elaborado pela autora.

182 192 Para selecionar os textos utilizados na atividade 1, optamos por trabalhar com textos do BrICLE porque conhecíamos de antemão os temas e almejávamos utilizar textos de mesmo tema. No entanto, tivemos que selecionar textos que tivessem escores altos tanto no polo positivo como no polo negativo da dimensão 1. Para tanto, utilizando uma planilha com os escores das redações da dimensão 1 e utilizando o filtro do programa Microsoft Excel, separamos as redações do BrICLE e organizamos de modo a tornar fácil a visualização do nome de arquivo da redação e os respectivos escores, como apresentado na Tabela Quadro 5.19 Redações e escores do BrICLE na dimensão 1 Arquivo Escore + Arquivo Escore - icle-br-unimesp ,33 icle-br-pucsp ,02 icle-br-fmg-0006_1. 11,72 icle-br-pucsp ,58 icle-br-ffrj-0051.t 10,95 icle-br-fmg-0062_1. -8,41 icle-br-pucrj ,52 icle-br-uerj-0026.t -7,17 icle-br-fmg-0018_1. 10,14 icle-br-usp-0004.tx -7,15 icle-br-unimesp-044 9,92 icle-br-pucsp ,93 icle-br-unimesp-046 9,75 icle-br-unimesp-016-6,52 icle-br-ffrj-0034.t 9,31 icle-br-unimesp-011-6,15 icle-br-ffrj-0044.t 9,24 icle-br-uerj-0001.t -5,64 icle-br-uerj-0025.t 9,11 icle-br-ufrj-0005.t -5,55 icle-br-ffrj-0022.t 8,9 icle-br-uerj-0037.t -5,43 icle-br-fmg-0009_1. 8,89 icle-br-unimesp-014-5,4 icle-br-ffrj-0047.t 8,54 icle-br-unimesp-023-5,16 icle-br-pucrj ,49 icle-br-uerj-0039.t -5,01 icle-br-fmg-0021_1. 8,43 icle-br-ffrj-0053.t -4,88 icle-br-ffrj-0039.t 8,37 icle-br-unimesp-056-4,8 icle-br-unimesp-037 8,27 icle-br-unimesp-057-4,73 icle-br-ffrj-0027.t 8,18 icle-br-usp-0001.tx -4,7 icle-br-ufrj-0004.t 8,13 icle-br-unesp-005.t -4,49 icle-br-fmg-0067_1. 7,85 icle-br-unesp-011.t -4,45 Fonte: Elaborada pela autora.

183 193 No BrICLE, buscamos os arquivos com escores mais altos, abrimos esses arquivos e, por inspeção visual, identificamos os temas. Então, comparamos os temas e escores e selecionamos os dois textos que se encontravam de acordo com os critérios mesmo tema e escore mais alto em cada polo. Os textos obtidos foram: icle-br-unimesp-056 (escore: -4,8) e icle-br-fmg-0018 (escore: 10,14). Quadro 5.20 Atividade 2 Observe as sentenças retiradas dos textos 1 e 2 e responda as perguntas propostas. (texto 1) I remember I used to play with this big yellow truck I imagined that the couch was a highway full of obstacles I had to overcome all of them with my mighty truck they'll inhabit they need to play in the street like our old days (texto 2) the great value attributed to science are responsible for taking space of dreaming This essay will consider arguments for supporting the idea It has been argued that our generation is being flooded by information receiving a great amount of information cannot be pointed as cause of lack of dreaming Quem é o sujeito, aquele que realiza as ações descritas nas sentenças do texto 1? E do texto 2? Como eles diferem? Qual dos grupos de sentença parece fornecer mais informação? Por quê? Qual dos grupos de sentenças parece mais com uma conversa? Por quê? Que outras diferenças podem ser notadas entre os dois grupos de sentenças? Fonte: Elaborado pela autora. Para a atividade 2, utilizando o WordList e o Concord do programa WordSmith Tools, investigamos quais são as palavras mais frequentes nos dois textos,

184 194 separadamente, e solicitamos concordâncias com as palavras em questão, o que resultou nos excertos apresentados no Quadro Quadro 5.21 Atividades 3, 4 e 5 Como visto no texto introdutório, sabemos que os textos variam linguisticamente de acordo com seu contexto situacional. Abaixo há um gráfico que mostra quais tipos de textos do inglês possuem características linguísticas mais próximas da linguagem oral (lado positivo do gráfico) e da linguagem escrita (lado negativo do gráfico). Em qual parte do gráfico você incluiria o texto 1 e o texto 2? Anote sua resposta no gráfico. Falado Considerando o gráfico e sua resposta, anote ao lado das situações propostas abaixo, em qual delas você escreveria do modo apresentado no texto 1 ou texto 2: Explicar a seus colegas sua opinião sobre tecnologia. Texto Escrever uma crítica sobre o uso de tecnologia nas universidades. Texto Escrever ou ligar para uma rádio dando sua opinião sobre o tema. Texto Apresentar um seminário sobre o tema em uma aula na universidade. Texto Como explicado no texto da introdução há variação linguística entre diferentes tipos de textos, e

185 195 esta variação acontece principalmente por meio da relação entre as características linguísticas que compõe este ou aquele texto. Em redações argumentativas, encontramos 4 dimensões de variação, como segue: Dimensão 1 escrita letrada X escrita narrativizada e oralizada Dimensão 2 escrita com foco na descrição versus escrita com foco no agir Dimensão 3 escrita com foco no pensamento e no relato Dimensão 4 escrita qualificativa A existência de quatro dimensões de variação significa dizer que embora, todos os textos sejam produzidos por alunos avançados de inglês e com a intenção de argumentar sobre um tema, esta argumentação acontece de forma variada. Não escrevemos sempre do mesmo jeito. Há momentos nos quais o texto argumentativo é mais descritivo, em outro mais opinativo e assim por diante. Na dimensão 1, por exemplo, alguma redações são mais elaboradas, ou seja, têm vocabulário mais rico, caracterizado pelo uso de nominalizações, palavras longas e verbos causativos, enquanto que outras parecem ser mais conversacionais e narrativizadas, portanto é um texto no qual se faz uso de verbos no passado, contrações e pronomes indefinidos. Com base nessa informação, faça as atividades abaixo. Pesquise em livros ou sites, discuta com os colegas e responda: O que são nominalizações? Qual sua função em um texto? O que são verbos causativos? Qual sua função em um texto? Por que o uso de palavras mais longas fazem com que o texto pareça mais elaborado? Para que utilizamos verbos no passado? Qual sua função em um texto? Quais são os pronomes indefinidos? Qual sua função em um texto? Quando utilizamos contrações? Qual sua função no texto? Fonte: Elaborado pela autora. Para as atividades 3, 4 e 5 (Quadro 5.21) não foi necessário realizar análises adicionais, aproveitamos o gráfico com os resultados para a dimensão 1 dos registros do inglês (BIBER, 1988) e informação advinda dos resultados da pesquisa, tais como: dimensões de variação das redações e diferenças entre elas. O objetivo dessas atividades é levar o aluno a perceber que há diversos tipos de registros, que eles variam de acordo com sua função comunicativa, tendo características linguísticas específicas e que textos argumentativos podem variar de modo a se aproximar de outros registros.

186 196 Quadro 5.22 Atividade 6 Observe os dois textos abaixo, sublinhe as características linguística mencionadas e reflita sobre o efeito de elas aparecerem juntas no texto. Texto 1 I'm sure that everybody had once thought: "Cars ought to be banned" I also had such an experience. It was in the summer of I and a friend of mine were spending some days in Berlin. Our days there were filled with visiting museums, sight-seeing, round-trips, going shopping... We had a whole lot to do. We didn't even notice the time passing. One evening, when I was washing my face I looked in the mirror. When I looked closer at my face, I almost had to cry. My face was covered with pimples, my nostrils were grey and my ears were black - covered with dirt. "What's that! Why am I so dirty!" I shouted. My friend immediatelly came into the bathroom. She only began to laugh and answered: - "That's the soot of the cars!" The next day, I noticed this huge mass of cars pushing through the streets of Berlin, standing and waiting at traffic-lights and always spitting out their soot for the first time. "What a whole lot of cars! Why do cars exist? Why don't the people go by bus, by train or by subway!" I was furious, because I imagined my bad skin. "Cars ought to be banned!". Texto 2 First of all, most of the environmental protectors believe that the method of recycling could help to solve the pollution problem in Hong Kong. As many Hong Kong people like to use plastic bottle for their drink. After their drinking, the plastic bottle becomes the waste products. Recycling seems the best way to dispose this plastic waste products. Besides, the method of recycling also has financial benefit. It can help lower raw materials costs and reduce waste management costs. <R> indicated the three major stages of recycling. Firstly, the waste material such as newspaper are collected and separated from the waste stream for reuse or processing. The waste materials are manufactured to produce new products which are then placed in the market for purchase and consumption. However, the process of collection and separation demand a large amount of labour supply. It increases the employment rate and stimulates the economy in Hong Kong. Thus, recycling help to reduce the cost of waste management, lower the raw materials costs, and provide income from saleable waste. Qual dos textos você classificaria como de escrita letrada? Explique: Qual dos textos você classificaria como oralizado e narrativo? Explique:

187 197 Os textos acima foram produzidos por alunos avançados de inglês, vamos observar agora textos que circulam em revistas americanas para ver se conseguimos observar características semelhantes? Novamente, observe os dois textos abaixo, sublinhe as características linguística mencionadas no enunciado da atividade 5 e reflita sobre o efeito de elas aparecerem juntas no texto. Texto 1 I never understood that you could have a fight with someone and continue to communicate through it. When times got tough, my instinct was to run away. I always wanted someone to come after me, but no one did, until Chris. Has your idea of marriage changed? Marriage is the only relationship that you expect to be perfect. But it can't be that way, really, by virtue of the fact that you're two different human beings. Texto 2 Comparative ethnographies of the political and juridical conditions that similarly delimit possibilities of life in these and other heavily militarized zones leads to a better understanding of " how dominant representations of the dangerous, the subversive, the worthless, the marginal, and the unimportant become linked to making particular groups of people susceptible to violence abuses that allow them to be treated with less than human respect and dignity " (Stephen 2000:823). This article examines the legal and political conditions of militarization in Kashmir Valley and the forms of life that these conditions enable and restrict in the name of national security. Qual dos textos você classificaria como de escrita elaborada? Explique: Qual dos textos você classificaria como oralizado e narrativo? Explique: Fonte: Elaborado pela autora. A seleção dos textos para a atividade 6 (Quadro 5.22) foi realizada de duas formas: na primeira parte selecionamos textos produzidos por alunos e na segunda utilizamos textos produzidos por falantes nativos de inglês e extraídos do COCA. Para conseguir os textos de alunos, utilizamos uma planilha com as redações e seus escores na dimensão 1, similar à utilizada na atividade 1, porém, dessa vez

188 198 escolhemos entre os textos de alunos das 19 origens presentes em nosso estudo (Tabela 5.38). Como da primeira vez, por inspeção visual escolhemos entre as redações com escores mais altos, aquelas que tinham assunto similar, obtendo como resultado as redações: cnhk1012 (escore 16,05) e geau1015 (escore -16,23). Tabela 5.38 Redações dos alunos e escores na dimensão 1 Arquivo Escore + Arquivo Escore - cnhk1111.txt.latin1 16,69 rumo4011.txt.latin1-17,11 cnhk1502.txt.latin1 16,09 geau2018.txt.latin1-16,79 cnhk1012.txt.latin1 16,05 nouo1063.txt.latin1-16,75 cnhk1509.txt.latin1 15,9 geau3061.txt.latin1-16,68 cnhk1215.txt.latin1 15,81 geau1015.txt.latin1-16,23 cnhk1036.txt.latin1 15,78 rumo6023.txt.latin1-15,01 cnhk1258.txt.latin1 15,75 geau1049.txt.latin1-14,73 cnhk1209.txt.latin1 15,61 locness txt -14,67 cnhk1019.txt.latin1 15,2 tskc1345.txt.latin1-14,66 cnhk1256.txt.latin1 15,15 jpko2007.txt.latin1-14,53 Fonte: Elaborada pela autora. Para amostras da escrita de falantes nativos de inglês, recorremos ao COCA (corpus de referência). Utilizamos algumas das palavras de busca selecionadas para as atividades do detalhamento e, então, escolhemos os tipos de texto. Para destacar as características da elaboração escolhemos um texto de revistas acadêmicas e para o da narrativa e fala, um texto de revista popular, obtendo as amostras da atividade 6 (Quadro 5.22). As atividades 7 a 25 e 27 a 34 (Anexo 1) são destinadas à fase do detalhamento e são descritas a seguir Seleção dos conteúdos para as atividades de detalhamento A fase do detalhamento tem por função principal fazer com que o aluno tenha maior contato com as características linguísticas observadas nos tipos de registro que estiver estudando, para ser capaz de produzir textos utilizando o que foi

189 199 aprendido quando chegar à fase da aplicação. Para encontrar os conteúdos para essa fase, foi necessário adotar uma série de procedimentos e análises. Primeiro, fizemos um levantamento das etiquetas das características linguísticas dos dois polos da dimensão 1, exceto para as contrações e o comprimento das palavras, pois essas duas características são trabalhadas em conjunto com as demais e não destinamos atividades específicas para esse fim, como exposto no Quadro Quadro 5.23 Etiquetas para as características da dimensão 1 Dimensão 1 Polo Características Etiqueta wrlength Positivo Comprimento das palavras (palavras mais longas) n_nom Positivo Nominalizações n Positivo Substantivos Não utilizado nn+nom nns+nom nn prcessn Positivo Substantivo abstrato ou de nn processos nn+nom causev Positivo Verbos causativos vb vbi pasttnse Negativo Verbos no tempo passado vbd contrac Negativo Formas contraídas Não utilizado pany Negativo Pronome indefinido pn Fonte: Elaborado pela autora. Utilizando os corpora (ICLE, BrICLE e LOCNESS) etiquetados, primeiramente geramos uma lista de palavras para ver quantas vezes cada etiqueta aparecia, obtendo o seguinte resultado: nn = vb = nom = vbi = vbd =

190 200 pn = Dividimos os valores por , o número máximo de linhas de concordâncias disponibilizadas pela ferramenta Concord do WordSmith Tools para saber como ajustar os settings da ferramenta. Esse procedimento é necessário para evitar que a busca pare no momento em que atinge o número máximo e não apresente amostras do total de etiquetas nos corpora. Ajustando de acordo com cada etiqueta, a ferramenta faz uma busca aleatória, a cada X número de palavras de acordo com o número estabelecido. Assim, realizamos nossas buscas ajustando os settings da seguinte forma: Para nn 1 a cada 40 palavras Para vb 1 a cada 18 palavras Para nom 1 a cada 15 palavras Para vbi 1 a cada 5 palavras Para vbd 1 a cada 5 palavras Para pn 1 a cada 2 palavras Após esse procedimento utilizamos as etiquetas como palavras de busca na ferramenta Concord do WordSmith Tools, obtendo as concordâncias das etiquetas (Figura 5.8).

191 201 Figura 5.8. Concordâncias para nn. Fonte: Elaborada pela autora. Realizamos esse procedimento para cada uma das etiquetas e, na sequência, clicamos na tecla que gera as colocações organizadas pela segunda palavra à esquerda, assim, identificamos as 10 palavras mais frequentes associadas às etiquetas, como ilustra o Quadro 5.24.

192 202 Quadro 5.24 Colocações mais frequentes acompanhando a etiqueta nom N WORD TOTAL LEFT RIGHT L5 L4 L3 L2 L1 * 1 UNIVERSITY IMAGINATION EDUCATION SITUATION INFORMATION GOVERNMENT LANGUAGE QUESTION VIOLENCE SCIENCE Fonte: Elaborado pela autora. Como trabalhar com todas essas palavras em um só grupo de atividades seria inviável, tanto neste estudo, por questões de espaço, como para o uso didático, por questão de tempo (seriam necessárias muitas aulas para realizar a atividade), selecionamos algumas palavras. O critério foi ser longas, para contemplar a presença de palavras longas entre as características linguísticas do polo positivo da dimensão 1, e/ou representarem um tipo diferente de nominalização, além das com terminação ation, que tendem a ser mais conhecidas. Sendo assim, selecionamos as palavras: imagination, language e violence. Para a seleção de verbos causativos, além do trabalho com as etiquetas, foi necessário utilizar uma lista de exemplos de Biber (2006), porque a etiqueta, sozinha, trazia outros tipos de verbos também. Comparamos a lista de verbos mais frequentemente colocados com a etiqueta vb e a lista de verbos causativos sugeridos na lista de Biber (2006). No caso dos verbos causativos, visando a contribuir com o aprendizado de vocabulário, selecionamos tanto os mais utilizados, como help (frequência 6.162) e allow (frequência 1.041), como os menos utilizados e, aparentemente, menos conhecidos pelos alunos: require (frequência 407) e ensure (frequência 406). Para verbos e pronomes indefinidos, adotamos os mesmos procedimentos da seleção de nominalizações, obtendo os resultados dos quadros 5.25 e 5.26.

193 203 Quadro 5.25 Lista das colocações mais frequentes de vbd (verbos no passado) N WORD TOTAL LEFT RIGHT L10 L9 L8 L7 L6 L5 L4 L3 L2 L1 * 1 WAS WERE HAD DID SAID MADE BECAME WANTED STARTED CAME Fonte: Elaborado pela autora. Considerando as possibilidades acima, eliminamos as opções de verbo to be, had e did porque, junto com aquelas ocorrências, há usos como auxiliar. O verbo said aparece no passado, mas também faz parte dos verbos dicendi presentes na dimensão 3 das redações e, portanto, não o utilizamos para não confundir o aluno. Assim, selecionamos para as atividades os verbos: became e wanted, um representando os verbos irregulares e outro representando os verbos regulares.

194 204 Quadro 5.26 Lista de colocações de pn (pronomes indefinidos) N WORD TOTAL LEFT RIGHT L10 L9 L8 L7 L6 L5 L4 L3 L2 L1 * 1 ONE SOMETHING EVERYTHING NOTHING SOMEONE EVERYONE EVERYBODY ANYTHING NOBODY ONES SOMEBODY ANYONE ANYBODY SO NONE Fonte: Elaborado pela autora. No caso dos pronomes indefinimos optamos por trabalhar com something, someone e somebody porque são palavras que ocorrem com frequência junto com o verbo wanted no corpus de referência (COCA) e, dessa forma, pudemos ensiná-las em co-ocorrência. A partir das palavras selecionadas, investigamos com a ferramenta de busca do corpus de referência, o COCA, sempre escolhendo primeiro a palavra com um colocado à esquerda e depois à direita, como ilustram as figuras 5.9 (A, B) e 5.10 (A, B) (utilizando a nominalização violence).

195 205 A

196 206 B Figura 5.9. Colocados à direita de violence (A, B). Fonte: Elaborada pela autora. A

197 207 B Figura Colocados à esquerda de violence (A, B). Fonte: Elaborada pela autora. Assim, fomos selecionando a palavra de busca e ao menos uma de suas colocações. Para cada palavra selecionamos tanto colocados mais frequentes como, às vezes, menos frequentes para que o aluno tomasse contato com palavras que são menos utilizadas e que possivelmente não conheça. Sempre que necessário, expandimos a sentença para conseguir copiá-las inteiras. Essas buscas resultaram em grupos de amostras (o Anexo 1 apresenta todas as amostras extraídas), das quais pudemos selecionar as que estavam de acordo com os tipos de atividades propostas. No quadro 5.27 apresentamos uma amostra de cada busca.

Exibir mais