Processamento de dados [no R] Fabrício Jailson Barth



Documentos relacionados
Web Data Mining com R

Programação de Computadores. Professor Ilaim Costa Junior

Introdução ao FORTRAN (Parte I)

Web Data mining com R: aprendizagem de máquina

Linear Solver Program - Manual do Usuário

VETORES. Lista de Exercícios Vetores e Matrizes Prof: Yuri Frota

Prof.: Clayton Maciel Costa

1. Tipos de variáveis e organização dos dados

Hierarquia de modelos e Aprendizagem de Máquina

Nº Competências Nº Habilidades Nº Bases Tecnológicas 1

COMPUTAÇÃO E PROGRAMAÇÃO

MPOG Evolução do Portal do Software Público

Etapa 1: Criação do bloco e escolha da(s) unidade(s) que devem assinar os documentos

SQL Linguagem de Definição de Dados. Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri

Linguagem SQL. Comandos Básicos

Ensino Técnico Integrado ao Médio FORMAÇÃO PROFISSIONAL. Plano de Trabalho Docente 2014

Faculdade Pitágoras 16/08/2011. Curso Superior de Tecnologia: Banco de Dados Sistemas para Internet

Faculdade Pitágoras. Curso Superior de Tecnologia: Banco de Dados. Disciplina: Banco de Dados Prof.: Fernando Hadad Zaidan SQL

Universidade Federal de Goiás Ciências da Computação Sistemas Operacionais 2

Guia de Acesso Rápido AVA Ambiente Virtual de Aprendizagem Aluno

TEMPLATES DE REFERÊNCIA PARA PLANEJAMENTO DE PROJETOS DE INVESTIMENTO

SISTEMAS DE INFORMAÇÕES GEOGRÁFICAS I (GEO 01007) AULA 10

Plano de Trabalho Docente Ensino Técnico

DOCUMENTO TÉCNICO ESPECIFICAÇÃO DE API DE SINALIZAÇÃO DE NUVEM OPENHYBRID DA VERISIGN. Versão 1.0 Janeiro de VerisignInc.com

Introdução ao SQL. Aécio Costa

PROGRAMAÇÃO PARA DISPOSITIVOS MÓVEIS ARMAZENAMENTO EM BD NO DM. Prof. Angelo Augusto Frozza, M.Sc.

Melhorias e Correções Patch's

Ensino Técnico Integrado ao Médio FORMAÇÃO PROFISSIONAL. Plano de Trabalho Docente 2014

CURSO DE EXTENSÃO ON-LINE EM Oracle 10g Express Edition XE nível básico. Edital de seleção

GUIÃO de APOIO à AVALIAÇÃO de PRODUTOS MULTIMÉDIA

Conteúdo. Disciplina: INF Engenharia de Software. Monalessa Perini Barcellos. Centro Tecnológico. Universidade Federal do Espírito Santo

BANCO DE DADOS -INTRODUÇÃO AO SQL. Prof. Angelo Augusto Frozza, M.Sc.

APPA Web DESCRIÇÃO DA INTERFACE DE CONCLUSÃO DA OPERAÇÃO NO PONTO DE DESTINO

CÓPIA E EXPORTAÇÃO DE SALA

Sumário. Introdução Introdução ao IDE Conceitos sobre a Linguagem C++ Builder Projetos e Configurações de Ambiente...

UNIVERSIDADE FEDERAL DE SANTA MARIA - UFSM COLÉGIO AGRÍCOLA DE FREDERICO WESTPHALEN BANCO DE DADOS II

Segurança de Dados no PostgreSQL

MANUAL DE MOVIMENTAÇÃO WEB POR FORMULÁRIO

Plano de Trabalho Docente Ensino Técnico

MANUAL C R M ÍNDICE. Sobre o módulo de CRM Definindo a Campanha... 3

SQL TGD/JMB 1. Projecto de Bases de Dados. Linguagem SQL

Programação Orientada a Objetos com PHP & MySQL Sistema Gerenciador de Banco de Dados: Introdução e configuração de bases de dados com Postgre e MySQL

PROGRAMAÇÃO WEB DO LADO DO CLIENTE

Data Mining: Ferramenta JAVA

SPSS Statistical Package for the Social Sciences Composto por dois ambientes:

CENTRO UNIVERSITÁRIO DE ENSINO SUPERIOR DO AMAZONAS - CIESA CENTRO DE PROCESSAMENTO DE DADOS CPD MANUAL DE UTILIZAÇÃO DO MOODLE 2.

JSP - ORIENTADO A OBJETOS

A linguagem SQL

Plano de Trabalho Docente Ensino Técnico

Lidar com números e estatísticas não é fácil. Reunir esses números numa apresentação pode ser ainda mais complicado.

Fundamentos dos Sistemas de Informação Organização de Dados e Informações

Disciplina: Unidade V: Prof.: Período:

Introdução ao Aplicativo de Programação LEGO MINDSTORMS Education EV3

INTRODUÇÃO. Enfoque abstrato. Enfoque Intermediário

PROGRAMAÇÃO PARA DISPOSITIVOS MÓVEIS ARMAZENAMENTO EM BD NO DM. Prof. Angelo Augusto Frozza, M.Sc.

Integração com o Ambiente Virtual de Aprendizagem Moodle

Introdução ao SQL. O que é SQL?

Especialização em Engenharia e Administração de Banco de Dados SISTEMA DE GERENCIAMENTO DE BANCO DE DADOS I

Curso PHP Aula 08. Bruno Falcão

* As disciplinas por ocasião do curso, serão ofertadas aos alunos em uma sequência didática.

ScriptPro Script PNR Básico

Pontos de Função. André Chastel Lima Andréia Ferreira Pinto Diego Souza Campos. Engenharia de Software Mestrado Ciência da Computação - UFMS

Rational Requirements Composer Treinamento aos Analistas de Qualidade e Gestor das Áreas de Projeto

MÓDULO 7 Modelo OSI. 7.1 Serviços Versus Protocolos

Tipos de Dados, Tipos Abstratos de Dados Estruturas de Dados

5 passos para. implementação. do código de barras IDENTIFIQUE CAPTURE COMPARTILHE

PROGRAMA. Aquisição dos conceitos teóricos mais importantes sobre bases de dados contextualizados à luz de exemplos da sua aplicação no mundo real.

Programação Java. com Ênfase em Orientação a Objetos. Douglas Rocha Mendes. Novatec

Banco de Dados Objeto Relacional

Sintaxe Básica de Java Parte 1

Plano de Trabalho Docente Ensino Técnico

AMBIENTE. FORMULÁRIO: é a janela do aplicativo apresentada ao usuário. Considere o formulário como a sua prancheta de trabalho.

Elaboração e redação: Equipe de Ensino e Documentação Unidade Indústria da Construção UNIC

Plano de Trabalho Docente Ensino Médio

OBJETOS DE APRENDIZAGEM

Comandos de Manipulação

3 Classes e instanciação de objectos (em Java)

Manual de Integração. Tecnologia: WebServices SOAP XML. Área: CDC. Produto: CDC Estendida (Física) Versão: 1.0. Autor: Angelo Bestetti Junior

Roteiro. Modelo de Dados Relacional. Processo de Projeto de Banco de Dados. BCC321 - Banco de Dados I. Ementa. Posicionamento.

Programação SQL. Introdução

ALGORITMOS E TÉCNICAS DE PROGRAMAÇÃO

Sistema de Acompanhamento e Gestao Tecnologica SAGETEC TELAS

MANUAL SOBRE O SISTEMA DE INVENTÁRIO PATRIMONIAL

Sumário. Introdução O Problema... 3

PROJETO DE PESQUISA SOBRE A UTILIZAÇÃO DE AMBIENTES VIRTUAIS DE APRENDIZAGEM COMO APOIO AO ENSINO SUPERIOR EM IES DO ESTADO DE SÃO PAULO

Introdução a listas - Windows SharePoint Services - Microsoft Office Online

3. Documentos de referência Manual de Eventos Item 3

Redes WAN. Prof. Walter Cunha

2 Diagrama de Caso de Uso

Ilustração 3 Tela de Acesso ao Sistema - SIG-RHS. Ilustração 4 Tela de Manutenção dos Usuários - Login - SIG-RHS

Plano de Trabalho Docente Ensino Técnico

SQL Linguagem de Definição de Dados. Laboratório de Bases de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri

APRENDENDO LÓGICA DE PROGRAMAÇÃO VIA WEB

Soluções adequadas ao seu ramo de atividade GESTÃO DE DESPACHO ADUANEIRO

Material de Apoio. Sistema de Informação Gerencial (SIG)

10) REGISTROS : Exemplos: var N,I: integer; A,B,C: real; CHAVE: boolean; CARAC: char; V: array[1..20] of real; M: array[1..10,1..

Prof. Carlos Majer Aplicações Corporativas UNICID

Identificação na gestão logística dos dispositivos médicos

MANUAL DE INSTRUÇÕES DE USO. estf Carga Processo

Transcrição:

Processamento de dados [no R] Fabrício Jailson Barth Março de 2013

Sumário Projeto R O que são dados? Raw data versus dado tratado. Representação de dados no R. Processamento de dados [no R] Sumário 2

Projeto R http://www.r-project.org/ R Studio - http://www.rstudio.com/ É free É a linguagem de programação mais popular para análise de dados Script é melhor que clicar e arastar: É mais fácil de comunicar. Reproduzível. É necessário pensar mais sobre o problema. Existe uma quantia grande de pacotes disponíveis Processamento de dados [no R] Projeto R 3

Definição de dados Data are values of qualitative or quantitative variables, belonging to a set of items. http://en.wikipedia.org/wiki/data Processamento de dados [no R] Definição de dados 4

Data are values of qualitative or quantitative variables, belonging to a set of items. Set of items: conjunto de itens (objetos) de interesse. Processamento de dados [no R] Definição de dados 5

Data are values of qualitative or quantitative variables, belonging to a set of items. variables: uma medida ou uma característica de um item. Processamento de dados [no R] Definição de dados 6

Data are values of qualitative or quantitative variables, belonging to a set of items. qualitative: cidade de origem, sexo, fez ou não tratamento. quantitative: peso, altura, pressão do sangue. Processamento de dados [no R] Definição de dados 7

Raw data versus dados processados Raw data Fonte original dos dados Geralmente difícil para fazer algum tipo de análise http://en.wikipedia.org/wiki/raw Data Processamento de dados [no R] Raw data versus dados processados 8

Dados processados Dados que estão prontos para serem analisados O processamento pode incluir merging, subsetting, transforming, etc... Todas as etapas devem ser registradas http://en.wikipedia.org/wiki/compute data processing Processamento de dados [no R] Raw data versus dados processados 9

Dados brutos Processamento de dados [no R] Dados brutos 10

Dados brutos consideração o projeto da aprendizagem que pensa como didaticamente os cursos devem ser projetados com o uso da tecnologia adequada. Isso inclui levar em conta os aspectos sociais e culturais envolvidos. Deixo abaixo algumas indicações de leitura que tratam isso. Assim, acho que dizer que tecnologia deve ser usada de forma responsável, não é discutir MOOCs. Outro ponto importante é destacar que os MOOCs aparecem no contexto da educação aberta e Ciencia aberta e inclui REAs, que costumavam ser chamados de objetos de aprendizem e agora discutem-se as licenças, as perspectivas de reutilização e de localização; os periódicos abertos que reagem aos altos valores de assinaturas dos periódicos tradicionais, as novas formas de publicação incluindo blogs; a educação hibrida; os ambientes pessoais de aprendizagem, etc. No geral Processamento de dados [no R] Dados brutos 11

Exemplo de dado processado Table 1: Exemplo de tabela com as transações dos usuários usuário categoria 1 categoria 2 categoria 3 categoriam user 1 0 2 0 1 user 2 1 1 0 0 user 3 2 0 1 0 user 4 0 1 0 0 usern 1 1 0 1 Processamento de dados [no R] Exemplo de dado processado 12

Tiny data Cada variável (atributo) forma uma coluna. Cada observação (exemplo) forma uma linha. Cada tabela ou arquivo armazena dados sobre uma observação (i.e., pessoas / hospitais) http://vita.had.co.nz/papers/tidy-data.pdf Processamento de dados [no R] Tiny data 13

Big or small - you need the right data 14

Representação de dados no R 15

Tipos de dados importantes no R Classes: Character, Numeric, Integer, Logical Objetos: Vector, Matrices, Data frames, List, Factors, Missing Values Operadores: Subsetting, Logical Subsetting Representação de dados no R Tipos de dados importantes no R 16

Character nome = "maria" class(nome) ## [1] "character" nome ## [1] "maria" Representação de dados no R Character 17

Numeric peso = 76.2 class(peso) ## [1] "numeric" peso ## [1] 76.2 Representação de dados no R Numeric 18

Integer qtdfilhos = 1L class(qtdfilhos) ## [1] "integer" qtdfilhos ## [1] 1 Representação de dados no R Integer 19

Logical temcarro = TRUE class(temcarro) ## [1] "logical" temcarro ## [1] TRUE Representação de dados no R Logical 20

Vectors Um conjunto de valores da mesma classe. pesos = c(76.2, 80.3, 90, 117.4) pesos ## [1] 76.2 80.3 90 117.4 nomes = c("maria", "carlos", "pedro") nomes ## [1] "maria" "carlos" "pedro" Representação de dados no R Vectors 21

Lists Um conjunto de valores que pode ser heterogêneo. pesosv = c(76.2, 80.3, 90, 117.4) nomesv = c("maria", "carlos", "pedro", "ant^onio") mylist <- list(pesos = pesosv, nomes = nomesv) mylist ## $pesos ## [1] 76.2 80.3 90.0 117.4 ## ## $nomes ## [1] "maria" "carlos" "pedro" "ant^onio" Representação de dados no R Lists 22

Lists Um conjunto de valores que pode ser heterogêneo. pesosv = c(76.2, 80.3, 90, 117.4) nomesv = c("maria", "carlos", "pedro", "ant^onio") mylist <- list(pesos = pesosv, nomes = nomesv) mylist ## $pesos ## [1] 76.2 80.3 90.0 117.4 ## ## $nomes ## [1] "maria" "carlos" "pedro" "ant^onio" Representação de dados no R Lists 23

Matrizes Vetores com múltiplas dimensões. mymatrix = matrix(c(1, 2, 3, 4), byrow = T, nrow = 2) mymatrix ## [,1] [,2] ## [1,] 1 2 ## [2,] 3 4 Representação de dados no R Matrizes 24

Data frames Múltiplos vetores de classes diferentes, mas com o mesmo tamanho. vector1 = c(188.2, 181.3, 193.4) vector2 = c("jeff", "roger", "andrew", "brian") mydataframe = data.frame(heights = vector1, firstnames = vector2) ## Error: arguments imply differing number of rows: 3, 4 mydataframe ## Error: object mydataframe not found Representação de dados no R Data frames 25

Data frames > vector1 = c(188.2, 181.3, 193.4) > vector2 = c("jeff", "roger", "andrew") > mydataframe = data.frame(heights = vector1, firstnames = vector2) > mydataframe heights firstnames 1 188.2 jeff 2 181.3 roger 3 193.4 andrew Representação de dados no R Data frames 26

Factors Variáveis qualitativas que podem ser incluídas no modelo. smoker = c("yes", "no", "yes", "yes") smokerfactor = as.factor(smoker) smokerfactor ## [1] yes no yes yes ## Levels: no yes Representação de dados no R Factors 27

Missing values No R os valores faltantes são codificados como NA vector1 <- c(188.2, 181.3, 193.4, NA) vector1 ## [1] 188.2 181.3 193.4 NA is.na(vector1) ## [1] FALSE FALSE FALSE TRUE Representação de dados no R Missing values 28

Subsetting vector1 = c(188.2, 181.3, 193.4, 192.3) vector2 = c("jeff", "roger", "andrew", "brian") mydataframe = data.frame(heights = vector1, firstnames = vector2) vector1[1] ## [1] 188.2 vector1[c(1, 2, 4)] ## [1] 188.2 181.3 192.3 Representação de dados no R Subsetting 29

Subsetting mydataframe[1, 1:2] ## heights firstnames ## 1 188.2 jeff mydataframe$firstnames ## [1] jeff roger andrew brian ## Levels: andrew brian jeff roger Representação de dados no R Subsetting 30

Logical subsetting mydataframe[mydataframe$firstnames == "jeff", ] ## heights firstnames ## 1 188.2 jeff mydataframe[heights < 190, ] ## heights firstnames ## 1 188.2 jeff ## 2 181.3 roger ## 4 192.3 brian Representação de dados no R Logical subsetting 31

Obtendo dados 32

Dados locais (toy examples) help(data) data() data(iris) Obtendo dados Dados locais (toy examples) 33

Earthquake data (dados reais) fileurl <- "http://earthquake.usgs.gov/earthquakes /catalogs/eqs7day-m1.txt" download.file(fileurl,destfile="./data/earthquakedata.csv", method="curl") datedownloaded <- date() edata <- read.csv("./data/earthquakedata.csv") https://explore.data.gov/geography-and-environment/worldwide-m1-earthquakes-past-7-days/7tag-iwnu Obtendo dados Earthquake data (dados reais) 34