OFICINA DE FERRAMENTAS COMPUTACIONAIS PARA A DOCUMENTAÇÃO E DESCRIÇÃO LINGUÍSTICA. Extração e codificação de dados (software R)

OFICINA DE FERRAMENTAS COMPUTACIONAIS PARA A DOCUMENTAÇÃO E DESCRIÇÃO LINGUÍSTICA Extração e codificação de dados (software R) Ministrantes: Flávia Regina de Santana Evangelista Rebeca Rodrigues de Santana Segundo Oushiro (2014), o R é uma linguagem de programação voltada à análise de dados, que pode ser utilizada para realizar computações estatísticas e gráficas, compilar e anotar corpora, produzir listas de frequências (p. 134) e diversas outras funções, entre elas três desenvolvidas especificamente para tarefas de análise sociolinguística: identificação, extração e amostragem. 1º PASSO Após a instalação do programa, defina a pasta na qual se encontra o corpus. Para tanto: 1. Clique nas reticências, ao lado esquerdo da opção files, para selecionar a pasta:

2. Clique em more, posteriormente em set as working directory para defini-la como diretório de trabalho: 2º PASSO O segundo passo é a identificação na qual as variantes do fenômeno receberão uma marcação que as destacará nos textos do corpus. 1. Selecione a opção source :

2. Digite o script para dar o comando de identificação: 3. Se não ocorrer erros, os textos serão processados e a identificação estará finalizada: 3º PASSO O terceiro passo é a extração por meio da qual as variantes são separadas do texto gerando outro arquivo no formato txt com colunas

separadas contendo também as variáveis sociais e os contextos precedente e seguinte. 1. Memorize no programa as variáveis sociais que serão analisadas. Os números utilizados no script correspondem ás linhas do cabeçalho da transcrição nas quais estas se encontram. 2. Digite o script para a extração 3. Após a extração, é gerado um novo arquivo em txt contendo somente as variantes, seus contextos precedente e seguinte e as variáveis sociais.

4. Selecione todo o conteúdo do arquivo txt e copie. No Excel, clique na primeira linha da tabela e cole o que havia sido copiado. DICAS E EXEMPLOS DE SCRIPTS DO RSTUDIO Para formular um script referente ao fenômeno que você deseja analisar, é necessário utilizar símbolos, quadro 1, que representam funções desenpenhadas pelo programa.

Quadro 1: Caracteres especiais para definição de expressões regulares. (OUSHIRO, 2014, p. 146). ALGUNS SCRIPTS PRONTOS: SCRIPTS PARA O FENÔMENO CONCORDÂNCIA EM PRIMEIRA E TERCEIRA PESSOA DO PLURAL Identificação identificacao(padrao="\\beles\\b \\belas\\bnós", simbolo.marcacao="<>", posicao.marcacao=f, ignorar.linhas="doc", stoplist=null, novos.arquivos="concordancia") Extração 1. nomes.variaveis.sociais<-c("sexo", "idade", "faixa.etária", "escolaridade", "zona.de.residência", "informante", "local.de.residência") 2. variaveis.sociais<-c(3, 4, 5, 6, 7, 8, 9) 3. extracao (padrao="\\beles\\b \\belas\\b \\bnós", palavras.cont.precedente=8, palavras.ocorrencia=1, palavras.cont.seguinte=8, stoplist=null, nomes.colunas.variaveis=nomes.variaveis.sociais, file="concordancia.txt")

SCRIPTS PARA NÓS / A GENTE EM POSIÇÃO DE SUJEITO Identificação identificacao(padrao="\\bnós\\b", simbolo.marcacao="<>", posicao.marcacao=f, ignorar.linhas="doc", stoplist=null, novos.arquivos="nos") identificacao(padrao="\\ba\\sgente",simbolo.marcacao="<>",posicao.marca cao=f,ignorar.linhas= DOC,stoplist=NULL,novos.arquivos="a.gente") identificacao(padrao="\\bnós\\b \\ba\\sgente", simbolo.marcacao="<>", posicao.marcacao=f, ignorar.linhas="doc", stoplist=null, novos.arquivos="nos.e.a.gente") Extração 1. nomes.variaveis.sociais<-c("sexo", "idade", "faixa.etária", "escolaridade", "zona.de.residência", "informante", "local.de.residência") 2. variaveis.sociais<-c(3, 4, 5, 6, 7, 8, 9) 3. extracao (padrao="\\bnós\\b ", palavras.cont.precedente=5, palavras.ocorrencia=1, palavras.cont.seguinte=5, stoplist=null, nomes.colunas.variaveis=nomes.variaveis.sociais, file="nos.txt") extracao (padrao="\\ba\\sgente", palavras.cont.precedente=5, palavras.ocorrencia=2, palavras.cont.seguinte=8, stoplist=null, nomes.colunas.variaveis=nomes.variaveis.sociais, file="a.gente.txt") extracao (padrao="\\bnós\\b \\ba\\sgente",palavras.cont.precedente=5, palavras.ocorrencia=1, palavras.cont.seguinte=5, stoplist=null, nomes.colunas.variaveis=nomes.variaveis.sociais, file="nos.e.a.gente.txt") SCRIPTS PARA A VOCALIZAÇÃO

Identificação identificacao(padrao="lh",simbolo.marcacao="<>", posicao.marcacao=f, ignorar.linhas="doc", stoplist=null, novos.arquivos="vocalizacao") Extração 1. nomes.variaveis.sociais<-c("sexo", "idade", "faixa.etária", "escolaridade", "zona.de.residência", "informante", "local.de.residência") 2. variaveis.sociais<-c(3, 4, 5, 6, 7, 8, 9) 3. extracao (padrao="lh", palavras.cont.precedente=5, palavras.ocorrencia=1, palavras.cont.seguinte=8, stoplist=null, nomes.colunas.variaveis=nomes.variaveis.sociais, file="vocalizacao.txt") REFERÊNCIAS OUSHIRO, Livia. Tratamento de dados com o R para análises sociolinguísticas, p.134-177. In Raquel Meister Ko. Freitag (Organizadora). Metodologia de Coleta e Manipulação de Dados em Sociolinguística, São Paulo: Editora Edgard Blücher, 2014. Disponível em: http://dx.doi.org/10.5151/blucheroa-mcmds-10cap