Aprendizado de Máquina (Machine Learning)

Documentos relacionados
Estatística Descritiva

Departamento de Estatística

Prof. Daniela Barreiro Claro

Amostragem Aleatória e Descrição de Dados - parte II

A Estatística é aplicada como auxílio nas tomadas de decisão diante de incertezas para justificar cientificamente as decisões

Estatística Descritiva (I)

Principais Conceitos em Estatística

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si

AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS MATEMÁTICA PLANIFICAÇÃO ANUAL 7.

AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO

INTRODUÇÃO À ESTATÍSTICA: Medidas de Tendência Central e Medidas de Dispersão. Prof. Dr. Guanis de Barros Vilela Junior

Introdução à Bioestatística. Profº Lucas Neiva-Silva Universidade Federal de Ciências da Saúde de Porto Alegre 2008

Estatística Descritiva (I)

Medidas e Escalas: Fundamentos e Escalas Comparativas Prentice Hall

ESTATÍSTICA E. Prof Paulo Renato A. Firmino. Aulas

DISCIPLINA: EPIDEMIOLOGIA E BIOESTATÍSTICA LICENCIATURA: ENFERMAGEM; FISIOTERAPIA

CAP1: Estatística Descritiva para análise da variabilidade uma amostra de dados quantitativos

Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters

Apresentação gráfica de séries estatísticas

Conceitos básicos, probabilidade, distribuição normal e uso de tabelas padronizadas

Tratamento estatístico de observações

Material exclusivo para o livro ESTATÍSTICA (São Paulo, Pleiade, 2008). Proibida a reprodução, sob pena da lei.

UNIVERSIDADE FEDERAL DA PARAÍBA CÁLCULO DAS PROBABILIDADES E ESTATÍSTICA I

INE 6006 MÉTODOS ESTATÍSTICOS

Transformada de Discreta de Co senos DCT

1 Introdução aos Métodos Estatísticos para Geografia 1

Métodos Estatísticos Básicos

Matrizes esparsas: definição

CAPÍTULO 3 POPULAÇÃO E AMOSTRA

AGRUPAMENTO de ESCOLAS Nº1 de SANTIAGO do CACÉM Ano Letivo 2013/2014 PLANIFICAÇÃO ANUAL

SUMÁRIO. Prefácio, Espaço amostrai, Definição de probabilidade, Probabilidades finitas dos espaços amostrais fin itos, 20

PLANEJAMENTO EXPERIMENTAL

AT = Maior valor Menor valor

Máquinas de suporte vetorial e sua aplicação na detecção de spam

Filho, não é um bicho: chama-se Estatística!

Processamento Digital de Sinais:

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

Compressão de Imagens Usando Wavelets: Uma Solução WEB para a Codificação EZW Utilizando JAVA. Utilizando JAVA. TCC - Monografia

Estatística descritiva básica: Medidas de tendência central

AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO

Calendarização da Componente Letiva Ano Letivo 2016/2017

Agrupamento de Escolas de Águeda Escola Básica Fernando Caldeira

REGRESSÃO E CORRELAÇÃO

Aprendizagem de Máquina

Elementos de Estatística

CONTROLE ESTATÍSTICO DE PROCESSOS

AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO

MATRIZ DE REFERÊNCIA DE MATEMÁTICA - SADEAM 3 ANO DO ENSINO FUNDAMENTAL

FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS

Inteligência Artificial

DEPARTAMENTO DE MATEMÁTICA E INFORMÁTICA DISCIPLINA: Matemática (8º Ano) METAS CURRICULARES/CONTEÚDOS ANO LETIVO 2016/

Prof. Dr. Engenharia Ambiental, UNESP

Modelos Lineares Medidas de tendência central e de variabilidade. Professora Ariane Ferreira

ESTATÍSTICA INFERENCIAL. Prof. Dr. Guanis de Barros Vilela Junior

Matriz de Referência de Matemática* SAEPI Temas e seus Descritores 5º ano do Ensino Fundamental

Módulo IV Medidas de Variabilidade ESTATÍSTICA

Estatística descritiva básica: Tabelas e Gráficos

Seminários Digitais Parte VI. Do universo, da amostra e da delimitação do corpus na pesquisa

UNIVERSIDADE FEDERAL DE RONDÔNIA CAMPUS DE JI-PARANÁ DEPARTAMENTO 3 ENGENHARIA AMBIENTAL LISTA DE EXERCÍCIOS 4

Inteligência Artificial

PROBABILIDADE E ESTATÍSTICA. Profa. Dra. Yara de Souza Tadano

Prof. Anderson Rodrigo da Silva.

P L A N I F I C A Ç Ã 0 3 º C I C L O

ESTATÍSTICA. na Contabilidade Parte 5. Medidas Estatísticas

UNIVERSIDADE FEDERAL DA PARAÍBA

Medidas Estatísticas NILO FERNANDES VARELA

Estatística

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka

Aula de Processamento de Sinais I.B De Paula. Tipos de sinal:

CARTOGRAFIA Escala. Prof. Luiz Rotta

Extração de Conhecimento & Mineração de Dados

Prof. Lorí Viali, Dr.

Elementos de Estatística

Aula 2 Regressão e Correlação Linear

Variáveis Aleatórias Contínuas e Distribuição de Probabilidad

ESTATÍSTICA Medidas de Síntese

Estatística para Cursos de Engenharia e Informática

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Cursos Profissionais de Nível Secundário

1 Desenho da investigação. 1.1 Definição e objectivos 1.2 Elementos do desenho

Introdução ao Processamento de Imagens Digitais Aula 01

Processamento Digital de Imagens

Análise Fatorial e Componentes Principais Aplicadas na Engenharia de Avaliações

Nov/2016. José Roberto Motta Garcia

ESTATÍSTICA DESCRITIVA E PREVISÃO INDICE

ESTATÍSTICA DESCRITIVA APLICADA NA SAÚDE. Hospital Universitário Prof. Edgard Santos UFBA Unidade de Planejamento Julho de 2016

Amostragem Objetivos - Identificar as situações em que se deve optar pela amostragem e pelo censo. - Compreender e relacionar AMOSTRA e POPULAÇÃO.

VISÃO COMPUTACIONAL. Marcelo Henrique dos Santos

ESTATÍSTICA DESCRITIVA

Prof. Sérgio Carvalho Estatística. I Jornada de Especialização em Concursos

Processamento de Imagem. Prof. MSc. André Yoshimi Kusumoto

ESTATÍSTICA. Objectivo: recolha, compilação, análise e interpretação de dados. ESTATÍSTICA DESCRITIVA INFERÊNCIA ESTATÍSTICA

Unidade III ESTATÍSTICA. Prof. Fernando Rodrigues

Transcrição:

Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira

Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos Qualitativos IMPORTANTE! O tipo de dado determina quais ferramentas e técnicas podem ser usadas para analisar os dados.

Qualidade dos Dados Presença de ruídos, dados sem relevância, perda, inconsistência ou duplicação, tendências irrelevantes, sem representatividade. Os dados muitas vezes estão longe da perfeição!

Pré-processamento Muitas vezes, os dados brutos devem ser processados para que sejam mais apropriados à análise. Por exemplo, um atributo contínuo (comprimento), pode precisar ser transformado em um com categorias discretas: curto, médio ou longo. Outro exemplo, o número de atributos em um conjunto de dados é muitas vezes reduzidos porque muitas técnicas são mais efetivas quando os dados possuem um número relativamente pequeno de atributos.

Tipos de Atributos Categorizados (qualitativos): Nominal e ordinal Numéricos (quantitativos): Intervalar e proporcional

Nominal e ordinal IDs, estado civil, cor dos olhos, sexo, grau de escolaridade, classe social. Intervalar e proporcional Para atributos intervalares a diferença entre os valores são significativas (datas, temperaturas), para proporcionais, tanto as diferenças como as proporções são significativas (quantidades monetárias, corrente elétrica).

Atributos quantitativos Discretos: tais atributos podem ser categorizados, como códigos postais ou IDs; ou numéricos, como contadores (variáveis de números inteiros). Contínuos: valores do tipo real; temperatura, altura ou peso.

Atributos assimétricos Para esses atributos, apenas a presença valor diferente de zero é considerado importante. Portanto, é mais significativo e mais eficiente processar os valores que não sejam zero.

Características dos Conjunto de Dados Dimensão: é o número de atributos que os objetos desse conjunto de dados possuem. As dificuldades associadas à análise de dados com dimensionalidades altas são chamadas de maldição da dimensionalidade. Uma importante motivação no pré-processamento dos dados é a redução de dimensionalidade!

Características dos Conjunto de Dados Dispersão: em termos práticos, a dispersão é uma vantagem porque geralmente apenas os valores diferentes de zero precisam ser armazenados e manipulados. Em muitos casos, menos de 1% das entradas são diferentes de zero. Além disso, alguns algoritmos funcionam bem apenas com dados dispersos.

Os passos do pré-processamento Agregação; Amostragem; Redução de dimensionalidade; Discretização e binarização; Transformação de variáveis.

Agregação Combinação de dois ou mais objetos em um único. Conjunto de dados de transações (objeto de dados) registrando as vendas diárias de produtos em diversos locais para diferentes dias durante um ano. ID Item Local Data Preço... 101123 Relógio Tubarão 09/06/14 155,00... 101123 Pilha Tubarão 09/06/14 5,90... 101124 Sapatos Criciúma 09/06/14 180,00..................... Uma forma de agregar transações para este conjunto de dados é substituir todas as transações de uma única loja por uma única transação. Reduz as centenas ou milhares de transações diárias em uma determinada loja a uma única transação diária.

Agregação A precipitação anual média possui menos variabilidade do que a precipitação mensal média.

Amostragem Abordagem usada para selecionar um subconjunto dos objetos de dados a serem analisado. Usar uma amostra funcionará tão bem quanto usar o conjunto inteiro de dados se a amostra for representativa. Uma amostra é representativa se tiver aproximadamente a mesma propriedade do conjunto original de dados.

Técnicas de Amostragem Amostragem aleatória simples: amostragem sem substituição amostragem com substituição Possível problema Modelos de classificação para classes raras, é crítico que as classes raras sejam adequadamente representadas na amostra.

Técnicas de Amostragem Amostragem estratificada Números proporcionais de objetos são selecionados de cada grupo.

Redução de Dimensionalidade Conjunto de dados podem ter um grande número de características. Reduzir a dimensionalidade pode eliminar características irrelevantes e reduzir o ruído. O termo muitas vezes é usado para técnicas que reduzem a dimensionalidade de um conjunto de dados criando novos atributos que sejam uma combinação dos atributos antigos.

Técnicas de Álgebra Linear para Redução da Dimensionalidade Análise de Componentes Principais (PCA) Decomposição de Valor Único (SVD)

Discretização e Binarização Os dados devem estar na forma de atributos categorizados para algoritmos de classificação. Algoritmos que encontram padrões de associação requerem que os dados estejam na forma de atributos binários. Muitas vezes é necessário transformar um atributo contínuo em um categorizado (discretização). Tanto atributos contínuos quanto discretos podem precisar ser transformados em um ou mais atributos binários (binarização).

Binarização Com m valores categorizados, atribui-se unicamente a cada valor original um valor inteiro no intervalo [0, m-1]. Se o atributo for ordinal, a ordem deve ser mantida pela atribuição. A seguir, converta cada um dos m números inteiros em um número binário. Já que n = [log 2 (m)] dígitos binários são necessários para representar estes números inteiros. Represente esses números binários usando n atributos binários.

Binarização Valor categorizado Valor inteiro X 1 X 2 X 3 Ruim 0 0 0 0 Fraco 1 0 0 1 Satisfatório 2 0 1 0 Bom 3 0 1 1 Excelente 4 1 0 0 Tal transformação pode causar complicações, como a criação de relacionamentos não pretendidos entre os atributos transformados. Os atributos X 2 e X 3 são correlacionados para o valor Bom. Além disso, a análise de associação requer atributos binários assimétricos, onde apenas a presença do atributo (valor =1) é importante.

Binarização Para problemas de associação é necessário inserir um atributo binário para cada valor categorizado Valor categorizado Valor inteiro x 1 x 2 x 3 x 4 x 5 Ruim 0 1 0 0 0 0 Fraco 1 0 1 0 0 0 Satisfatório 2 0 0 1 0 0 Bom 3 0 0 0 1 0 Excelente 4 0 0 0 0 1

Discretização de Atributos Contínuos A discretização é geralmente aplicada em atributos que sejam usados na análise de classificação ou associação. A transformação de um atributo contínuo em um categórico envolve duas subtarefas: decidir quantas categorias e determinar como mapear os valores do atributo contínuo para essas categorias.

Discretização de Atributos Contínuos 1. Ordenar os valores do atributo contínuo e especificar n intervalos, com n-1 pontos de divisão. 2. Todos os valores de um intervalo são mapeados para o mesmo valor de categoria. O problema da discretização é decidir quantos pontos de divisão escolher e onde colocá-los.

Transformação de Variáveis Se refere a uma transformação que seja aplicada a todos os valores de uma variável. Tipos: Transformações funcionais simples Normalização

Transformação de Variáveis Funções Simples Para esse tipo, uma função matemática simples é aplicada a cada valor individualmente. Se x for uma variável, então exemplos de tais transformações incluem x k, log x, e x, x, 1/x, sen x ou x. ID Variável (x) Transformação log 10 (x) 1011 256 2.41 1012 16 1.20 1013 1 0 1014 9 0.95 1015 4 0.60

Transformação de Variáveis Normalização e Padronização O objetivo é fazer o conjunto inteiro de valores ter uma determinada propriedade. Exemplo: considere a comparação de pessoas baseada em duas variáveis: idade e renda. A diferença em renda provavelmente seja muito maior em termos absolutos do que a diferença de idade.

Transformação de Variáveis Normalização e Padronização Um exemplo tradicional é o da padronização de uma variável em estatística. Se ā for a média dos valores do atributo e S a seu desvio padrão, então a transformação a =(a ā)/s a cria uma nova variável que tem uma média 0 e um desvio padrão de 1. ā = 33.5 S a = 45.31477 Atributo a a 5-0.6289340 10-0.5185947 15-0.4082554 18-0.3420518 7-0.5847983 23-0.2317125 50 0.3641197 140 2.3502270

Transformação de Variáveis Normalização e Padronização Se variáveis diferentes devem ser combinadas, então tal transformação muitas vezes é necessária para evitar variáveis com valores grandes dominando os resultados do cálculo.

Medidas Semelhança e Diferença Semelhança e diferença são usadas em técnicas como, agrupamento, classificação e detecção de anomalias. Medidas como a correlação e distância euclidiana são úteis para dados densos como séries de tempos ou pontos bidimensionais. Medidas de semelhança do cosseno e Jaccard são úteis para dados esparsos como documentos.

Semelhança A semelhança entre dois objetos é uma medida numérica do grau no qual dois objetos se parecem. Semelhanças são geralmente não negativas e muitas vezes entre 0 (sem semelhança) e 1 (semelhança completa).

Diferença A diferença entre dois objetos é uma medida numérica do grau no qual os dois objetos são diferentes. Frequentemente, o termo distância é usado como sinônimo de diferença. As diferenças às vezes estão no intervalo [0,1], mas é comum que variem de 0 a.

Semelhança e Diferença entre atributos simples Atributo nominal: Neste caso, a semelhança é definida tradicionalmente como 1 se os valores forem correspondentes e 0 caso contrário. Atributo ordinal: As informações sobre a ordem devem ser levadas em consideração. Qualidade de um produto (fraca, razoável, satisfatória, boa, ótima). Para tornar esta observação quantitativa, os valores muitas vezes são mapeados com números inteiros sucessivos {fraca=0, razoável=1, satisfatória=2, boa=3, ótima=4}

Semelhança e Diferença entre atributos simples Atributo ordinal: {fraca=0, razoável=1, satisfatória=2, boa=3, ótima=4} Então d(p1,p2) = 3-2 = 1, ou d(p1,p2) = (3-2)/4 = 0,25 Uma semelhança para atributos ordinais pode então ser definida como s = 1- d. Atributos proporcionais ou intervalares: A medida natural de diferença entre dois objetos é a diferença absoluta dos seus valores.

Diferenças entre objetos de dados

Diferenças entre objetos de dados

Medidas de semelhança para dados binários Se x e y são dois objetos que consistam de n atributos binários, a comparação entre eles, ou seja, entre dois vetores binários, leva às seguintes quantidades (frequências): f 00 = número de atributos onde x é 0 e y é 0 f 01 = número de atributos onde x é 0 e y é 1 f 10 = número de atributos onde x é 1 e y é 0 f 11 = número de atributos onde x é 1 e y é 1

Medidas de semelhança para dados binários

Medidas de semelhança para dados binários Coeficiente de Jaccard Sejam x e y objetos de dados que representam duas linhas de uma matriz de transações. Cada atributo assimétrico corresponde a um item de uma loja, então o número 1 indica que o item foi comprado, caso contrário temos o número 0. O CCS diria que todas as transações são muito semelhantes, já que o número de produtos não comprados por algum cliente supera em muito o número de produtos comprados.

Medidas de semelhança para dados binários

Medidas de semelhança para dados binários X = (1,0,0,0,0,0,0,0,0,0) Y = (0,0,0,0,0,0,1,0,0,1) f 00 = 7 f 01 = 2 f 10 = 1 f 11 = 0 CCS = 0.7 J = 0

Medidas de semelhança para dados não binários Semelhança do cosseno Documentos podem ser representados como vetores, onde cada atributo representa a frequência na qual uma determinada palavra ocorre no documento. A semelhança do cosseno é uma das medidas mais comuns de semelhança de documentos.

Medidas de semelhança para dados não binários

Medidas de semelhança para dados não binários Semelhança do cosseno x = (3,2,0,5,0,0,0,2,0,0) y = (1,0,0,0,0,0,0,1,0,2) x.y = 5 x = 6.45 y = 2.24 cos(x,y)=0.34