Nov/2016. José Roberto Motta Garcia



Documentos relacionados
Sobre Nova Edição 9. Prefácio 11

Nov/2016. José Roberto Motta Garcia

Nov/2016. José Roberto Motta Garcia

Linguagem de Programação

Nov/2016. José Roberto Motta Garcia

Redes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS

Fundamentos de Inteligência Artificial [5COP099]

Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II. Análise de Dados. Sylvio Barbon Junior 29 de julho de 2016 DC-UEL Sylvio Barbon Jr 1

Redes Neurais e Sistemas Fuzzy

ANÁLISE DE CORRELAÇÕES CANÓNICAS. Identificar e quantificar a associação entre dois conjuntos de variáveis.

Funções da família apply e funções que dependem da classe

K-Nearest Neighbours & RSTUDIO

Funções. Introdução à Análise Estatística com. Algumas funções úteis. Algumas funções estatísticas. Curso

Iniciando o estudo e exploração de dados

Processamento digital de imagens

Nov/2016. José Roberto Motta Garcia

MLaaS com Azure: Que tipo de flor de íris é essa?

Redes Neurais no WEKA

SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga

Geração Automática de Sistemas Nebulosos por Co-Evolução

Bob Cuspe. Title goes here 1. Reconhecimento de Padrões. Análise de Discrimantes. Objetivos da Análise de Discriminantes. Análise de Discriminantes

CIÊNCIA DE DADOS COM R EMENTA AULA 1 INTRODUÇÃO À LINGUAGEM EM R

Análise Estatística em Epidemiologia Utilizando o Ambiente R - I

Algoritmos Indutores de Árvores de. Fabrício J. Barth

ANÁLISE ESTATÍSTICA DE DADOS USANDO O RSTUDIO

Técnicas Multivariadas em Saúde. Representação de Dados Multivariados. Métodos Multivariados em Saúde Roteiro. Análise Exploratória de Dados

1 Funcionalidades do R Introdução Função genérica orientada ao objeto Que tipo de objeto eu tenho?... 3

Support Vector Machines

Mineração de Dados. Modelos Descritivos. Descoberta de agrupamentos

Máquinas de Vetores de Suporte

1.1 Introdução Função genérica orientada ao objeto Que tipo de objeto eu tenho?... 4

O ambiente de trabalho R

A Figura 28 mostra a representação gráfica dos dados presentes na base de dados fcmdata do Matlab de dimensão 140x2 dividida em 2 grupos.

Análise e visualização de dados utilizando redes neurais artificiais auto-organizáveis

Pacotes Lattice e tables. Cristiano de Carvalho

Uma Nova Forma de Calcular o Centro dos Clusters no Algoritmo Fuzzy C-Means

Aprendizagem de Máquina

Informática Parte 19 Prof. Márcio Hunecke

PROGRAMA DE DISCIPLINA

Função discriminante linear de Fisher

ENTENDENDO ANÁLISE DE DADOS. Setembro de 2016 Prof. David Prata

5 Estudo de Casos. Tabela 5 - Características dos Banco de Dados

CCNA Exploration (Protocolos e Conceitos de Roteamento) Protocolo RIP

Mineração de Dados em Biologia Molecular

TEFE Aula 3 - Geração de dados simulados - versão Python. suplemento elaborado por Danilo Lessa Bernardineli

Árvores de decisão. Marcelo Keese Albertini Faculdade de Computação Universidade Federal de Uberlândia. 25 de Maio de 2017

Informática. Aprendizado de Máquina. Professor Márcio Hunecke.

Metodologia KNN-Fuzzy: Uma Abordagem da Classificação de Dados por Similaridade

à Análise de Padrões

KDD E MINERAÇÃO DE DADOS

Análise de dados: clustering e redução de dimensionalidade

Silva (2014) faz a classificação dos elementos no trabalho Data Mining sobre um dataset de Câncer de Mama:

Software R - introdução

SER Introdução ao Geoprocessamento

Aprendizagem de máquina

Elaine Chen, Gerente de Produto. Como usar o R e o Tableau

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU

Aprendizado de Máquina

M08. Introdução a Técnicas de Data Mining DM

Excel BÁSICO Aula 1 Ambiente Excel. Prof. Cassiano Isler Turma 5

Aprendizagem de Máquina

M etodos Matem aticos e de Computa c ao II VIII XI/2016

DETECÇÃO E EXTRACÇÃO DE CARACTERÍSTICAS DO OLHO EM IMAGENS USANDO UM MODELO PROTÓTIPO DEFORMÁVEL

Gauss-Seidel para Solução de Sistemas com Matrizes Banda Usando Armazenamento Especial

Prof. Marcelo Azevedo Costa. Departamento de Engenharia de Produção Universidade Federal de Minas Gerais

INTRODUÇÃO À TECNOLOGIA DA INFORMAÇÃO CONCEITO DE SOFTWARE PROFESSOR CARLOS MUNIZ

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a

manual do sdk para rep trilobit layouts

Transformação dos dados. Analise de Componentes Principais - PCA

Abordagem Semi-supervisionada para Rotulação de Dados

ESTATÍSTICA Aula de 07/08/2017. Introdução ao R Variáveis Qualitativas: gráficos

Benjamin Bengfort Jenny Kim

Exercícios AN(C)OVA - Modelos Matemáticos /16

ADMINISTRAÇÃO DE SISTEMAS DE INFORMAÇÃO. Lista de Exercícios 01. Luiz Leão

Escrito por Eng. Camila Ferreira Seg, 07 de Outubro de :46 - Última revisão Seg, 07 de Outubro de 2013

Comunicação Científica em Física Usando LaTeX na redação um artigo científico

Prof. Heitor Silvério Lopes

09/05/2017. Prof. Mônica Suely Guimarães de Araujo

INTRODUÇÃO AO R. PopEA - População, Espaço e Ambiente: CST e SER ano 2018 Dra. Silvana Amaral e Antônio Miguel Vieira Monteiro

Microsoft Excel: # 1

Microsoft Excel: # 1

Manual marketing v

Pacote em ambiente R para automatizar estatísticas descritivas

II.3. Análise de Variância (ANOVA)

Definição de novas funções

II.3. Análise de Variância (ANOVA)

Algoritmos Estrutura Condicional

Como verificar desenhos rapidamente?

BIE5782. Unidade 5: Criação e Edição de Gráficos

Informática para as Ciências e Engenharias - 2º semestre 2016/2017

GT-UniT Tutorial de Execução do Telescope no PlanetLab

Informática para as Ciências e Engenharias - 2º semestre 2016/2017

Laboratório Preprocessamento com WEKA Explorer

Capítulo 7 Matriz. Roteiro

Relatório LAB1 França D. G. M. Matrícula: Exercício 1

R Commander Facilitando o aprendizado da Estatística. George Amarante Melo Jony Arrais Pinto Junior

Trabalho 1 - Relatório Técnico

Armazenamento, Visualização & Representação

% & ' ( serviços fornecidos pela camada de rede. roteamento na Internet. princípios de roteamento. funcionamento de um roteador. IPv6.

Transcrição:

José Roberto Motta Garcia garcia.cptec@gmail.com

Fases da análise de dados Tratamento de dados

Aviso ATENÇÃO Fechar e reabrir o RStudio (para ensinamento de conceito)

Funções?apply: apply() Executam operações sobre um conjunto de dados (matrix, list, vector, data.frame, ) Muito poderosas e compactadoras de código apply: Aplica função em TABELA (vector, matrix, data.frame, data.table,...) e retorna a TABELA modificada pela função.

Funções?apply: lapply() e sapply() lapply: Aplica função em List e retorna um List sapply: Aplica função em List e retorna um vector ou matrix (obedece retorno da função) OUTRAS mapply() rapply() tapply() vapply()

Normalização de dados Conceito Várias técnicas de aprendizado de máquina requerem que os dados estejam numa mesma escala, ou seja, mesmo range de valores, sob pena de: lentidão, imprecisão e attribuição errônea de relevância.

Normalização de dados Execução e resultados

Dados faltantes: preparando o DS Iris dataset (incluído no R) 3 Espécies de íris: versicolor, setosa e virginica Medições das pétalas e sépalas: largura e altura

Dados faltantes: verificando existência

Dados faltantes: produzindo na mão Exemplo de geração de números aleatórios

Dados faltantes: produzindo via pacote Valores diferentes? Por quê?

Reprodutibilidade Função prodna() usa aleatoriedade (no slide anterior) Setar semente antes do comando que usa num. aleatórios

Dados faltantes: conhecendo 10 10 6 4

Dados faltantes: eliminando Decidir se quantidade e dados vai prejudicar análise

Dados faltantes: preenchendo e analisando visualmente Versões

Dados faltantes: analisando numericamente o preenchimento

Tratamento de dados diversos

Tratamento de dados: reshaping LONG WIDE. funções de análise. ggplot. lattice plots. funções de sumarização. mineração de dados. base plot

Shape do dataset: conceito DATA LONG VARIAVE L VALOR 2016-09-21 PREC 5 2016-09-21 TMIN 10 2016-09-21 TMAX 21 2016-09-22 PREC 0 2016-09-22 TMIN 11 2016-09-22 TMAX 25 2016-09-23 PREC 2 2016-09-23 TMIN 14 2016-09-23 TMAX 29 WIDE DATA PREC TMIN TMAX 2016-09-21 5 10 21 2016-09-22 0 11 25 2016-09-23 2 14 29 Cada valor das colunas de dados no WIDE se torna uma linha no LONG, para cada chave (que é a DATA) Para mudar o shape dcast() e reshape()

Conceito: processamento iterativo x vetorizado VOTE S VOTES_F + R + + + + + + = = = = = = = TESTE 1 VOTE S VOTES_F R TESTE 2 + =