José Roberto Motta Garcia garcia.cptec@gmail.com
Fases da análise de dados Tratamento de dados
Aviso ATENÇÃO Fechar e reabrir o RStudio (para ensinamento de conceito)
Funções?apply: apply() Executam operações sobre um conjunto de dados (matrix, list, vector, data.frame, ) Muito poderosas e compactadoras de código apply: Aplica função em TABELA (vector, matrix, data.frame, data.table,...) e retorna a TABELA modificada pela função.
Funções?apply: lapply() e sapply() lapply: Aplica função em List e retorna um List sapply: Aplica função em List e retorna um vector ou matrix (obedece retorno da função) OUTRAS mapply() rapply() tapply() vapply()
Normalização de dados Conceito Várias técnicas de aprendizado de máquina requerem que os dados estejam numa mesma escala, ou seja, mesmo range de valores, sob pena de: lentidão, imprecisão e attribuição errônea de relevância.
Normalização de dados Execução e resultados
Dados faltantes: preparando o DS Iris dataset (incluído no R) 3 Espécies de íris: versicolor, setosa e virginica Medições das pétalas e sépalas: largura e altura
Dados faltantes: verificando existência
Dados faltantes: produzindo na mão Exemplo de geração de números aleatórios
Dados faltantes: produzindo via pacote Valores diferentes? Por quê?
Reprodutibilidade Função prodna() usa aleatoriedade (no slide anterior) Setar semente antes do comando que usa num. aleatórios
Dados faltantes: conhecendo 10 10 6 4
Dados faltantes: eliminando Decidir se quantidade e dados vai prejudicar análise
Dados faltantes: preenchendo e analisando visualmente Versões
Dados faltantes: analisando numericamente o preenchimento
Tratamento de dados diversos
Tratamento de dados: reshaping LONG WIDE. funções de análise. ggplot. lattice plots. funções de sumarização. mineração de dados. base plot
Shape do dataset: conceito DATA LONG VARIAVE L VALOR 2016-09-21 PREC 5 2016-09-21 TMIN 10 2016-09-21 TMAX 21 2016-09-22 PREC 0 2016-09-22 TMIN 11 2016-09-22 TMAX 25 2016-09-23 PREC 2 2016-09-23 TMIN 14 2016-09-23 TMAX 29 WIDE DATA PREC TMIN TMAX 2016-09-21 5 10 21 2016-09-22 0 11 25 2016-09-23 2 14 29 Cada valor das colunas de dados no WIDE se torna uma linha no LONG, para cada chave (que é a DATA) Para mudar o shape dcast() e reshape()
Conceito: processamento iterativo x vetorizado VOTE S VOTES_F + R + + + + + + = = = = = = = TESTE 1 VOTE S VOTES_F R TESTE 2 + =