ESTATÍSTICA Aula de 07/08/2017 Introdução ao R Variáveis Qualitativas: gráficos
O Programa R É um software de análise estatística de dados, de domínio público. Como baixar o programa? Vá no site: https://cran.r-project.org/ Escolha a versão adequada para você: windows, linux ou MAC. Instale o programa base.
O Programa R No base vamos encontrar todas as funções importantes para a disciplina. Para técnicas mais sofisticadas, bastará pesquisar o pacote em que elas estão para então baixar esse pacote.
Como carregar no R o conjunto de dados? Vamos começar com um exemplo no qual apenas observamos variáveis qualitativas. Suponha que num grupo de 80 estudantes observou-se tipo sanguíneo e nível de instrução da mãe. Vimos que tipo sanguíneo é uma variável qualitativa nominal e nível de instrução é uma variável qualitativa ordinal.
Como carregar no R o conjunto de dados? Os dados, fictícios, foram digitados numa planilha excel. Tipos sanguíneos: O, A, AB e B Nível de Instrução: F (fundamental completo), M (médio completo), S (superior completo) e SPG (pósgraduação completa).
Parte da planilha: tipo_s A A A A O O O O O B B AB AB O O O O nivel_mae F F M M M M M M S S S SPG SPG F F F M
Como carregar no R o conjunto de dados? Observe que a primeira linha da planilha contém o nome das variáveis: tipo_s e nivel_mae. Para um conjunto organizado dessa forma, em que cada coluna é uma variável e a quantidade de dados é igual em todas as linhas o comando adequado para carregar o conjunto de dados é o comando read.table(...)
Como carregar no R o conjunto de dados? Nesse exemplo, os dados estão salvos no arquivo de nome mad231_r_exemplo1.txt Comando: dados=read.table( c://geografia//mad231_r_exemplo1.txt, header=t) Com esse comando o R carregará a planilha de dados que receberá o nome dados. Depois de ler o arquivo com o comando acima, se você digitar dados o R listará o conjunto que foi lido.
Como trabalhar com as variáveis individualmente? Como indicamos os nomes das variáveis, dados$tipo_s ou dados[,1] correspondem aos dados de tipo sanguíneo dados$nivel_mae ou dados[,2] correspondem aos dados de nível de instrução da mãe. Se você leu o conjunto de dados, mas não sabe quantas são as variáveis e qual é o número de observações digite dim(dados). Ele retornará, no caso desse exemplo, 80 2, informando que há duas colunas com 80 dados em cada uma delas.
Como trabalhar com as variáveis individualmente? Se você digitar dados[40,2], o R retornará o nível de instrução da mãe da observação de número 40. Outra possibilidade para obter essa informação é digitar dados$nivel_mae[40] > dados[40,2] [1] SPG Levels: F M S SPG > dados$nivel_mae[40] [1] SPG Levels: F M S SPG Observação: Levels são os níveis assumidos pela variável qualitativa. Para o R entender que a variável é qualitativa, as entradas na planilha devem ser não-numéricas.
Como obter as frequências? No caso de variáveis qualitativas, a função table(), retornará as frequências absolutas de cada resposta possível. Por exemplo, table(dados$tipo_s) A AB B O 24 17 6 33
Como obter as frequências? Para calcular as frequências relativas você pode usar table(dados$tipo_s)/80, em que / é o símbolo da divisão no R. A AB B O 0.3000 0.2125 0.0750 0.4125 Observação: o padrão nacional é representar as unidades decimais após a vírgula. Porém, no R o padrão adotado é o americano que usa o ponto no lugar da vírgula. Se você for carregar um banco de dados numéricos no padrão nacional no R, lembre antes de substituir as vírgulas por pontos.
Como obter as frequências? Na tabulação anterior as respostas ficaram com quatro casas decimais e são exatas. Mas há situações em que o número de casas decimais pode ser bem maior que quatro. Em geral o R retornará as respostas com oito casos decimais o que é exagerado para fins de descrição de frequências relativas. A função round(x,digit=2) resolve essa questão, arredondando x para duas (2) casas decimais. Você pode escolher o número de casas decimais.
Como obter as frequências? round(table(dados$tipo_s)/80,digit=2) A AB B O 0.30 0.21 0.08 0.41 round(table(dados$tipo_s)/80,digit=2) F M S SPG 0.19 0.42 0.24 0.15
Como construir o gráfico de setores? A função pie() no R constrói o gráfico de setores. Você deve indicar a distribuição de frequências a partir da qual será construído o gráfico. pie(table(dados$tipo_s))
Como construir o gráfico de setores? Observe que no gráfico obtido não há título, as cores não foram escolhidas... Existem argumentos na função pie() que podem ser usados para incluir títulos, alterar o preenchimento dos setores.
Argumentos da função pie() main: é usado para indicar o título. pie(table(dados$tipo_s),main= Distribuição de frequências de Tipo Sanguíneo )
Argumentos da função pie() col: é usado para indicar o vetor de cores de preenchimento dos setores. pie(table(dados$tipo_s),main= Distribuição de frequências de Tipo Sanguíneo,col=c( blue, red, yellow, pink ))
Argumentos da função pie() col: é usado para indicar o vetor de cores de preenchimento dos setores. pie(table(dados$tipo_s),main= Distribuição de frequências de Tipo Sanguíneo,col=gray(seq(0, 1.0, length = 4)))
Argumentos da função pie() radius altera o tamanho do raio do círculo. pie(table(dados$tipo_s),main= Distribuição de frequências de Tipo Sanguíneo,radius=0.5)
Gráfico de Setores para a variável nível de instrução da mãe pie(table(dados$nivel_mae),main="distribuição de frequências de Nível de Instrução da Mãe",col= gray(seq(0.4, 1.0, length = 4)),radius=1)
Gráfico de barras Quando as diferenças nas frequências são pequenas ou quando há muitas respostas, o gráfico de barras é mais adequado do que o gráfico de setores. Pequenas diferenças de ângulo no gráfico de setores não são detectáveis. A função barplot() constrói o gráfico de barras da distribuição de frequências de uma variável qualitativa.
Gráfico de barras barplot(table(dados$nivel_mae),main="distribuição de frequências de Nível de Instrução da Mãe")
Argumentos da função barplot() Com a função help(), usando help( barplot ) é possível obter todos os argumentos possíveis desde cor das barras até largura e espaçamento delas. Vamos construir um gráfico de barras da distribuição de frequências da variável tipo sanguíneo.
Atividade Proposta Instale o R em alguma máquina de seu laboratório. Se você não tiver permissão para isso, peça ao responsável. Pesquise ou crie um banco de dados com variáveis qualitativas. (em planilha) Leia no R os seus dados e construa os correspondentes gráficos de setores e de barras.
Funções do R read.table() table() pie() barplot() help() Operações Matemáticas Adição: + Subtração: Multiplicação: * Divisão: / Raiz quadrada: sqrt() Potência: a^b (a elevado a b) Log. Natural: log(a) Função exponencial: exp(a)