Lista de Funções do R



Documentos relacionados
RESUMO DA AULA PRÁTICA DE EXCEL

APOIO À ATIVIDADE DE ANÁLISE DESCRITIVA DESENVOLVIDA NA OFICINA ESTATÍSTICA PARA TODOS"

Linguagem R R-Gui e R-Commander

Linguagem R R-Gui e R-Commander

Simulado Informática Concurso Correios - IDEAL INFO

OFICINA DE POWER POINT

Software R - introdução

REGISTRO DE PROJETOS

Sistemas Operacionais. Curso Técnico Integrado Profa: Michelle Nery

TUTORIAL PARA PREPARAÇÃO E IMPORTAÇÃO DE DADOS PARA. Os dados de suas coletas devem ser organizados em uma planilha eletrônica, de modo

UNIPAMPA Universidade Federal do Pampa. Núcleo de Tecnologia da Informação (NTI)

País(es) : Brasil Banco(s) de Dados : Sql Server / Oracle

ANÁLISE DE DADOS EXPERIMENTAIS USANDO SOFTWARE LIVRE

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

P Procedimento para Instalação do SisGEF 7.0 na Máquina Servidor

Primeiros passos das Planilhas de Obra v2.6

Implementando uma Classe e Criando Objetos a partir dela

Tutorial: Geração de PDF da Documentação Digitalizada

Alguns truques do Excel. 1- Títulos com inclinação. 2- Preencha automaticamente células em branco

Manual de instalação, configuração e utilização do Enviador XML

Acessando o SVN. Soluções em Vendas Ninfa 2

Manual para acesso às disciplinas na modalidade EAD

Passo a Passo dos Relatórios de Venda no Sigla Digital

1) Ao ser executado o código abaixo, em PHP, qual será o resultado impresso em tela?

IMPRESSÃO DE DADOS VARIÁVEIS usando Adobe InDesign e OpenOffice.org

O Windows também é um programa de computador, mas ele faz parte de um grupo de programas especiais: os Sistemas Operacionais.

Neste tópico, você aprenderá a criar facilmente um banco de dados para uma nova empresa e a definir configurações comuns de uma empresa no SAP

Arquivos, pastas e os formatos próprios do R: RData e rds Planilhas e web: csv, xlsx, XML e JSON Pacotes estatísticos e bancos de dados

UNIVERSIDADE FEDERAL DO AMAPÁ PRÓ REITORIA DE ADMINISTRAÇÃO E PLANEJAMENTO DEPARTAMENTO DE INFORMÁTICA. Manual do Moodle- Sala virtual

Capítulo 2. VARIÁVEIS DO TIPO INTEIRO

Sumário. 1. Instalando a Chave de Proteção Novas características da versão Instalando o PhotoFacil Álbum 4

PRINCÍPIOS DE INFORMÁTICA PRÁTICA OBJETIVO 2. BASE TEÓRICA. 2.1 Definição de Planilha Eletrônica

LINX POSTOS AUTOSYSTEM

ESTUDANDO ESTATÍSTICA DESCRITIVA COM AUXÍLIO DO SOFTWARE CALC

CADERNOS DE INFORMÁTICA Nº 1. Fundamentos de Informática I - Word Sumário

Guia de Acesso para os Cursos Online

Portaria Express 2.0

Guia do Usuário. idocs Content Server v

Aula 01 Conceitos Iniciais sobre Excel 2010

Manual de Utilizador. Caderno. Recursos da Unidade Curricular. Gabinete de Ensino à Distância do IPP.

Configurando o Controle dos Pais no Windows Vista

Apostilas OBJETIVA Atendente Comercial / Carteiro / Op. Triagem e Transbordo CORREIOS - Concurso Público º CADERNO. Índice

Bem-vindo ao tópico sobre consultas no SAP Business One.

COORDENAÇÃO DE EAD MANUAL DE UTILIZAÇÃO DO MOODLE 2.6 PERFIL ALUNO. Versão 1.0

SIE - SISTEMA DE INFORMAÇÕES PARA O ENSINO CADASTRO DE FUNCIONÁRIOS

UFERSA Universidade Federal Rural do Semi-Árido. R Project R Project Criando e manipulando objetos.

O teste de McNemar. A tabela 2x2. Depois

OpenOffice Calc Aula 4

Manual do Módulo de Correspondência

Figura 1: tela inicial do BlueControl COMO COLOCAR A SALA DE INFORMÁTICA EM FUNCIONAMENTO?

Como produzir e publicar uma apresentação online dinâmica (Prezi)

Manual do Instar Mail v2.0

Informática básica Telecentro/Infocentro Acessa-SP

AGHOS - GESTÃO E REGULAÇÃO ASSISTENCIAL E FINANCEIRA DE SAÚDE MÓDULO DE REGULAÇÃO AMBULATORIAL DE CONSULTAS ESPECIALIZADAS

BR DOT COM SISPON: MANUAL DO USUÁRIO

RESPOSTAS DAS QUESTÕES ANULADAS OU COM MUDANÇA DE GABARITO

Aula 4 Estatística Conceitos básicos

SISTEMAS DE INFORMAÇÕES GEOGRÁFICAS I (GEO 01007) AULA 10

TUTORIAL PARA UTILIZAÇÃO DA PLATAFORMA LMS

PowerPoint 2010 para o Office 365 para empresas

Manual do Usuário. Protocolo

BSI Letramento Digital Prof. André Di Thommazo. Organização pessoal

MANUAL DO SISTEMA. Versão 6.07

WINDOWS EXPLORER. O organizador

Assessoria Técnica de Tecnologia da Informação - ATTI. Projeto de Informatização da Secretaria Municipal de Saúde do Município de São Paulo

MANUAL BACKUP XDENTAL 2012

CEDERJ - CENTRO DE EDUCAÇÃO SUPERIOR A DISTÂNCIA DO ESTADO DO RIO DE JANEIRO

Simulador CCNA Exame de Certificação da CISCO

Como criar um blog. Será aberta uma janela onde você deverá especificar o título do blog, o endereço do blog, e o modelo.

Manual Banco de dados MySQL

Manual do Utilizador. Manual do Utilizador Modelo10 no sisgep. Data última versão: Versão : 1.2. Data criação:

Simulador PMP - 4º Edição Exame de Certificação do PMI

BearingNet - Orçamentos Contenuto

Gravando Dados e Cópias de CD s com o Nero 6.0 Disciplina Operação de Sistemas Aplicativos I

1. REGISTRO DE PROJETOS

Carrera Pessoal Guia de uso

Manual MQS. Logo após colocar essas informações abrirá a página inicial do sistema:

Relatórios. Manual. Pergamum

Índice. 5. Editar as seções de um curso 6. Estruturar o curso 7. Publicar o curso 8. Resumo do Fluxo de criação de um curso no educommons

Programação Orientada a Objeto

CADASTRO DE OBRAS E PROJETOS DE ENGENHARIA

MULTIACERVO Implementações da versão 20-1

Esse manual é um conjunto de perguntas e respostas para usuários(as) do Joomla! 1.5.

O Gerenciamento de Documentos Analógico/Digital

1. Configuração Configuração de eventos Pesquisa de eventos Códigos Dados para configuração

Iniciação à Informática

Apostila de. WordPress. Gustavo Teixeira da Cunha Coelho Henrique Gemignani Passos Lima. 13 de maio de Primeira Edição RC2

Compartilhando Arquivos com o Grupo Doméstico

Virtual Box. Guia. Instalação E Utilização. Criado por Wancleber Vieira wancleber.vieira@ibest.com.br

MANUAL DE UTILIZAÇÃO. Produtos: Saúde Pró Faturamento Saúde Pró Upload. Versão:

MINISTÉRIO DA SAÚDE. Secretária de Gestão Estratégica e Participativa da Saúde SGEP. Coordenação de Desenvolvimento dos Sistemas de Saúde - CDESS

O QUE É A CENTRAL DE JOGOS?

COMO GERAR UM ARQUIVO NÃO IDENTIFICADO NO TABWIN

AJUDA - FORMULÁRIO DE PROPOSTA ON-LINE - AVG

Como colocar uma notícia no site internet da UMMSP?

AULA 4 VISÃO BÁSICA DE CLASSES EM PHP

Transcrição:

Lista de Funções do R Esta é apenas e tão somente uma lista das funções utilizadas nesse curso introdutório. Glossário Antes da lista de funções per se, faz-se necessário apresentar o glossário dos termos mais utilizados no curso. - Pasta ou Diretório de trabalho - local no computador onde todos os arquivos referentes a análise de dados (i.e., banco de dados, gráficos, output,... ) serão salvos. Sessão de trabalho - esta se inicia toda vez que o programa é aberto e o usuário define a pasta de trabalho em que a análise de dados será salva. A sessão de trabalho é salva continuamente em arquivo com extensão.rdata na pasta de trabalho. Este arquivo deve ser carregado ao início de cada sessão. Para salvar a sessão de trabalho continuamente, deve-se utilizar a função save.image() no Console. Console - janela dentro do programa que exibe a linha de comando iniciada pelo símbolo >. Nessa linha de comando, as funções do R são utilizadas por meio de escrita textual do código seguido do botão ENTER (i.e., no jargão dos programadores isso é equivalente a expressão rodar comando ). Os comandos utilizados na linha de comando ficam salvos temporariamente (i.e., até a sessão de trabalho anterior) em arquivo com extensão.rhistory na pasta de trabalho. Script - janela dentro do programa que exibe os comandos a serem rodados no Console utilizando CTRL+R. O Script pode ser salvo com extensão.r, o que permite visualizá-lo na pasta de trabalho dentro do programa. Este arquivo deve ser aberto no início de cada sessão de trabalho. Output - há dois tipos de output no R: primeiro, aquele que aparece no Console logo depois que rodamos um comando; segundo, a janela de gráficos a qual aparece toda vez que rodamos comando de gráfico (e.g., utilizando a função plot()). A janela de gráficos pode ser salva em arquivos de extensão de imagem (.jpg,.tif,.png,... ) ou em.pdf. Função do R - código que executa ações em determinado objeto no R. No jargão de usuários do R, diz-se que função é ferramenta para manipular o objeto. Há, também, quem invoque a metáfora do marceneiro para explicar o que é função. O marceneiro utiliza ferramenta para esculpir a madeira e transformá-la em algo útil. Da mesma forma, o analista de dados utiliza função do R para trabalhar seus dados os quais são objetos no R. Objetos no R - veja melhor explicação na subseção Criação de objetos no R. Instalar o programa O programa R pode ser instalado do website oficial http://www.r-project.org/: CRAN Mirror (e.g., Brazil-University of Sao Paulo, Sao Paulo) Download and Install R for Windows. Como pedir ajuda? As funções do R têm documentação online. help(lm) ou?lm - ajuda da função lm(). help.search("linear model") ou??"linear model" - busca em todo sistema de ajuda a função ou objeto que 1

possui em sua descrição a expressão linear model. help.start() - inicia-se a versão HTML do sistema de ajuda. Pode-se clicar em cima de packages para ver todos os pacotes instalados. Depois, pode-se clicar em cima de, por exemplo, stats para ver todas as funções estatísticas disponíveis nesse pacote. Instalar e carregar pacotes Os pacotes podem ser instalados de servidor local (i.e., local mirror) a partir do próprio programa em instalar pacotes no menu Pacotes ou utilizando a função install.packages() no Console. require(epicalc) - carrega pacote previamente instalado no programa. DICA: carregar sempre o pacote no início de cada sessão de trabalho. Importar e exportar base de dados É possível elaborar e armazenar bancos de dados como objetos dentro do R. Mas, neste curso, a recomendação é que o banco de dados seja elaborado no EpiInfo TM (http://wwwn.cdc.gov/epiinfo/) e depois importado no R. Adicionalmente, é possível importar no R arquivos SAS, Stata, SPSS, Minitab, DBF e EpiInfo utilizando as funções do pacote foreign. A seguir estão as funções de importação e exportação utilizadas nesses curso. read.table(arquivo, header = TRUE, sep = ) - importa arquivo em formato de planilha e cria data.frame com o mesmo. O nome do arquivo tem de estar entre aspas e conter a extensão (e.g.,.txt). Em geral, utiliza-se o argumento header = TRUE para utilizar a primeira linha da tabela como cabeçalho (i.e., linha com o nome das colunas). Finalmente, utiliza-se o argumento sep = que indica espaço em branco como separador de colunas para importar corretamente a estrutura da planilha. read.csv(arquivo, header = TRUE, sep =, ) - importa arquivo.csv (i.e., arquivo com vírgula como separador de colunas). Esta é a forma de importação mais utilizada nesse curso porque esse tipo de arquivo pode ser elaborado na planilha de dados mais utilizada do planeta (i.e., Excel TM ). As mesmas regras de read.table() podem ser aplicadas com essa função, mas é importante enfatizar que o tipo de separador é vírgula, sendo então utilizado o argumento sep =,. write.table(x, arquivo, row.names = TRUE, col.names = TRUE, sep = ) - exporta qualquer objeto do R o qual é primeiramente transformado em uma planilha de dados antes da exportação. Assim, deve-se declarar dentro dessa função o x (nome do objeto no R), o nome do arquivo (e.g., meus.dados.txt ), primeira linha (row.names = TRUE), primeira coluna (col.names = TRUE) e o tipo de separador de colunas (sep = ). Criação de objetos no R No R, tudo é objeto. A programação orientada a objetos é um dos paradigmas modernos das linguagens de programação, sendo assim observada na maioria das linguagens contemporâneas de alto nível, e.g., Python, Java,.... No R, as bases de dados vão ser sempre transformadas em objetos para a análise de dados. O nome de objeto (a gosto do freguês) é atribuído (< ) por meio de determinada função que cria 2

objetos (e.g., meu.objeto.do.r < c(1, 25, 74, 40)). Há, pelo menos, 6 tipos dessas funções que criam objetos, sendo as quais frequentemente utilizados e ensinados nesse curso: vetor, planilha de dados, tabela, fator, lista e função. c(...) - função genérica que combina argumentos para formar um vetor. O vetor é adimensional, podendo representar linha ou coluna de uma planilha de dados. data.frame(...) - cria-se uma planilha de dados com essa função. Em epidemiologia, este é um objeto muito utilizado, sendo pacientes representados nas linhas e variáveis nas colunas. matrix(x, nrow =, ncol =, byrow = TRUE) - tabelas de contingência são criadas com essa função. Para criar uma tabela 2x2, deve-se declarar o x (vetor contendo os valores das 4 caselas), número de linhas e de colunas (nrow = 2, ncol = 2 ). factor(x, levels=) - transforma vetor (x) em fator (i.e., variável categórica) o qual possui categorias (levels =) representadas por nomes. Ao fazer essa transformação, percebe-se que as categorias da variável ficam entre aspas ( ). É por meio das aspas que o R reconhece que a variável é do tipo string (i.e., texto). list(...) - cria-se objeto lista que é o mais recursivo de todos os objetos do R. Assim, a lista é conhecida, popularmente, como o varal em que é possível pendurar todo e qualquer tipo de objeto. Por isso, a mesma é utilizada para guardar o output da análise de dados. Nesse output podem haver vários tipos de objetos do R, por exemplo um vetor e uma tabela, os quais estão salvos dentro dessa lista. function(...) - esta é a função que cria novas funções no R. Mais explicações sobre essa função na subseção Programação. Objetos criados na Sessão de trabalho Para o iniciante no R, pode parecer que os objetos não foram criados utilizando os comandos acima. Utiliza-se a função ls() para retornar todos os objetos criados e salvos na sessão de trabalho. Visualização de objetos no R A visualização é simples. Uma vez que o objeto está criado, utiliza-se o nome do objeto para a visualização. Entretanto, existem outras formas de ver o objeto. A mais utilizada nesse curso é: str(x) - exibe a estrutura interna do objeto (x), informando o tipo de objeto, número de observações e classe de cada variável. Exitem duas classes de variáveis no R: primeira, categórica (e.g., factor, character); segunda, numérica (e.g., integer, numeric). Indexação de objetos no R A indexação é utilizada para selecionar subconjuntos de valores do objeto no R. Para objeto adimensional como o vetor, utiliza-se: x[n] - seleciona-se o n enésimo elemento do vetor x. Para objetos bi-dimensionais como a tabela e a planilha de dados, utiliza-se: x[i, j] - seleciona-se o elemento da linha i da coluna j. Para selecionar todas as linhas e determinada coluna j, utiliza-se x[, j]. Adicionalmente, podem ser selecionadas as dez primeiras linhas de todas as colunas (i.e., x[1:10, ]). 3

Coerção de objetos no R Produção de gráficos A coerção é a transformação de um objeto em outro. Para transformar um factor em objeto numérico, utiliza-se: as.numeric(x) - esta função transforma x que é um factor em objeto numérico. Em adição, pode-se transformar uma tabela (matrix) em planilha de dados (data.frame) utilizando: as.data.frame - transforma-se tabela em planilha de dados. Para conhecer as demais funções de coerção de objetos no R, utiliza-se method(as). Estatística descritiva Aqui é uma orientação simples e direta de procedimentos utilizados na análise estatística descritiva. Para variáveis qualitativas (categóricas) e discretas, utilizam-se as seguintes funções: table(x) - esta função retorna a distribuição de frequência absoluta das categorias na variável x. prop.table(table(x)) - estas funções, uma dentro da outra, retornam a distribuição de frequência relativa das categorias na variável x. Para as variáveis quantitativas contínuas, são utilizadas as funções a seguir: summary(x) - a função retorna média, mediana, mínimo e máximo da variável x. A mesma deve ser complementada com sd(x) para obter o desvio padrão dessa variável. A produção de gráficos pode ter dois objetivos: primeiro, complementar a análise estatística descritiva; segundo, apresentar os resultados de forma elegante e sintética em manuscritos ou demais trabalhos acadêmicos. Para saber se a variável x tem Distribuição Normal, as funções de histograma e de gráfico Quantil-Quantil podem ser utilizadas: hist(x) - faz-se histograma da variável x. qqnorm(x) - faz-se gráfico Quantil- Quantil da variável x. Frequentemente, combina-se esta função com outra (qqline(x)) para obter a linha de referência teórica esperada se a variável x fosse Normal. Para visualizar a relação entre duas variáveis, são utilizadas as funções a seguir: barplot(table(x)) - exibe graficamente a relação das distribuições de frequência de duas variáveis qualitativas em uma tabela x. boxplot(y x) - exibe graficamente a distribuição de frequência da variável quantitativa contínua (y) segundo as categorias da variável x. plot(x, y) - exibe graficamente a relação entre variáveis quantitativas contínuas, sendo x independente e y dependente. pairs(x) - esta função pode ser utilizada para produzir, a partir de uma planilha de dados (data.frame x), a matriz de dispersão. Para exibir também a matriz de correlação, precisa-se da função interna panel.cor que pode ser obtida no help da função pairs() (i.e.,?pairs). 4

Customização de gráficos A customização de gráficos é muito particular. Entretanto, algumas regras básicas devem ser seguidas. Por exemplo, torna-se imprescindível disponibilizar o título e os rótulos dos eixos X e Y dos gráficos. Ainda, gráficos coloridos são, em geral, preferíveis. Portanto, seguem argumentos mais utilizadas na customização de gráficos. main = Título do gráfico - argumento main serve em qualquer função de gráfico (e.g., plot(x, y, main = Meu Primeiro Gráfico: não ficou bacana? )). Esse argumento representa o título do gráfico. xlab = Nome do Rótulo do Eixo X, ylab = Nome do Rótulo do Eixo Y - esses argumentos são bem gerais e servem em todas as funções de gráfico (e.g., plot(x, y, xlab = Número de dias de curso de R, ylab = Aprendizagem no R ). Eles representam os rótulos dos eixos X e Y, respectivamente. col = red - esse argumento é para colorir os símbolos internos do gráfico (e.g., plot(x, y, col = red )). Existem muitas cores disponíveis no R (e.g., rode a função colours() para vê-las). Em adição, pode-se entrar no help de cada função de gráfico (e.g.,?barplot) e ver todos os argumentos disponíveis para customização. Finalmente, pode-se entrar no help da lista de argumentos gráficos disponíveis (e.g.,?par). Por exemplo, utiliza-se frequentemente o comando par(mfrow(2,2)) para pedir janela com 4 espaços 2x2 de gráficos. Testes de hipóteses O R tem uma família de funções para fazer os testes de hipóteses. Em geral, o nome dessas funções são bem intuitivos. Por exemplo, o teste não-paramétrico de Shapiro-Wilk é representado pela função shapiro.test(). Imaginem como chama a função para fazer o teste exato de Fisher? Só poderia ser a função fisher.test(). shapiro.test(x) - testa-se a hipótese nula de que a variável x adere a Distribuição Normal. fisher.test(x) - testa-se a hipótese nula de que há independência de linhas e colunas na tabela de contingência x de marginais fixas. chisq.test(x) - esta função calcula o teste de χ 2 de Pearson para a tabela de contingência x. cor.test(x, y, alternative = c("two.sided", "less", "greater"), method = c("pearson", "kendall", "spearman"),...) - esta função testa a correlação entre variáveis quantitativas contínuas x e y utilizando o coeficiente de correlação de Pearson ou de Kendall ou de Spearman. A hipótese alternativa deve ser bi-caudal (i.e., two-sided). Obviamente, existem outras funções disponíveis no pacote stats para fazer os testes de hipóteses mais utilizados em análise estatística. Na subseção Como pedir ajuda? está descrito como entrar nesse pacote e ver todas as suas funções. Modelos de regressão Os modelos de regressão linear são muito utilizados em análise estatística. No R, modelos lineares são representados pela função a seguir: lm(y x 1 + x 2 +... + x n ) - esta 5

é a função para fazer modelo de regressão linear, sendo que lm(y x 1 ) é simples e lm(y x 1 + x 2 ) é múltiplo. A variável y é dependente e a variável x é independente. Para ver os resultados do modelo, deve-se utilizar a função summary() (e.g., summary(lm1), sendo lm1 um objeto da função lm()). Em epidemiologia, o modelo de regressão logística binomial é também utilizado para, por exemplo, medir a associação entre variáveis de desfecho e explanatória. No R, esse modelo está incluso na família de modelo lineares generalizados (i.e., generalized linear model). Essa família é representada pela função glm() e a regressão logística binomial é explicitada dentro dessa função (i.e., family = binomial()). glm(y x 1 + x 2 +... + x n, family = binomial()) - esta função é utilizada para fazer a regressão logística binomial, sendo que glm(y x, family = binomial()) é o modelo simples e glm(y x 1 + x 2, family = binomial()) é o múltiplo. A variável de desfecho é y a qual é binomial (e.g., 0 = não-caso; 1 = caso). A variável explanatória é x que, em geral, deve ter sido transformada em dummy (e.g., 0 = baseline, 1 = presença de exposição ao risco). Para ver os resultados do modelo, deve-se utilizar a função logistic.display() (e.g., logistic.display(glm1), sendo glm1 um objeto da função glm()). A função logistic.display() está disponível no pacote epicalc (ver subseção Pacotes Epidemiológicos). Distribuições Além da famosa Distribuição Normal, existem muitas outras distribuições de probabilidades (e.g., Exponencial, Gamma, Poisson, Weibull, t, F,... ). No R, pode-se obter valores aleatórios dessas distribuições teóricas. Por exemplo, pode-se ver a seguir a função: rnorm(x, mean = 0, sd = 1) - utilizada para obter valores aleatórios de uma Distribuição Normal em sua forma reduzida (i.e., µ = 0 e σ = 1). O argumento x é o número de valores que se deseja obter. Os valores de mean e sd podem ser alterados (e.g., rnorm(x, mean = 18, sd = 7)). Programação de novas funções Uma das grandes vantagens do R em relação aos outros programas de análise estatística é a criação de novas funções. No R, pode-se criar novas funções utilizando a função function(). minha.função < function(x, y, z) - esta função (e.g., minha.função) tem três argumentos (e.g., x, y e z). {... return - aqui é explicitado o output dessa função (i.e., minha.função) } - entre essas chaves (i.e., {... }) são explicitados os cálculos envolvendo os três argumentos x, y e z. Pacotes Epidemiológicos O R possui muitos pacotes (http://www.r-project.org/). Aqui, nós utilizamos três pacotes epidemiológicos: epicalc, epir e epibasix. epibasix - este pacote tem funções básicas utilizadas em epidemiologia. epir - este pacote tem funções avançadas utilizadas em epidemiologia. epicalc - este pacote tem funções utilizadas para modelos de regressão em 6

epidemiologia. Para ver o conteúdo de cada pacote, deve-se utilizar a funções help.start() (ver na subseção Instalar e carregar pacotes). Finalmente, termina-se aqui a lista de códigos utilizados nesse curso introdutório sobre a aplicação do ambiente R na análise estatística em epidemiologia. 7