Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira
Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos Qualitativos IMPORTANTE! O tipo de dado determina quais ferramentas e técnicas podem ser usadas para analisar os dados.
Qualidade dos Dados Presença de ruídos, dados sem relevância, perda, inconsistência ou duplicação, tendências irrelevantes, sem representatividade. Os dados muitas vezes estão longe da perfeição!
Pré-processamento Muitas vezes, os dados brutos devem ser processados para que sejam mais apropriados à análise. Por exemplo, um atributo contínuo (comprimento), pode precisar ser transformado em um com categorias discretas: curto, médio ou longo. Outro exemplo, o número de atributos em um conjunto de dados é muitas vezes reduzidos porque muitas técnicas são mais efetivas quando os dados possuem um número relativamente pequeno de atributos.
Tipos de Atributos Categorizados (qualitativos): Nominal e ordinal Numéricos (quantitativos): Intervalar e proporcional
Nominal e ordinal IDs, estado civil, cor dos olhos, sexo, grau de escolaridade, classe social. Intervalar e proporcional Para atributos intervalares a diferença entre os valores são significativas (datas, temperaturas), para proporcionais, tanto as diferenças como as proporções são significativas (quantidades monetárias, corrente elétrica).
Atributos quantitativos Discretos: tais atributos podem ser categorizados, como códigos postais ou IDs; ou numéricos, como contadores (variáveis de números inteiros). Contínuos: valores do tipo real; temperatura, altura ou peso.
Atributos assimétricos Para esses atributos, apenas a presença valor diferente de zero é considerado importante. Portanto, é mais significativo e mais eficiente processar os valores que não sejam zero.
Características dos Conjunto de Dados Dimensão: é o número de atributos que os objetos desse conjunto de dados possuem. As dificuldades associadas à análise de dados com dimensionalidades altas são chamadas de maldição da dimensionalidade. Uma importante motivação no pré-processamento dos dados é a redução de dimensionalidade!
Características dos Conjunto de Dados Dispersão: em termos práticos, a dispersão é uma vantagem porque geralmente apenas os valores diferentes de zero precisam ser armazenados e manipulados. Em muitos casos, menos de 1% das entradas são diferentes de zero. Além disso, alguns algoritmos funcionam bem apenas com dados dispersos.
Os passos do pré-processamento Agregação; Amostragem; Redução de dimensionalidade; Discretização e binarização; Transformação de variáveis.
Agregação Combinação de dois ou mais objetos em um único. Conjunto de dados de transações (objeto de dados) registrando as vendas diárias de produtos em diversos locais para diferentes dias durante um ano. ID Item Local Data Preço... 101123 Relógio Tubarão 09/06/14 155,00... 101123 Pilha Tubarão 09/06/14 5,90... 101124 Sapatos Criciúma 09/06/14 180,00..................... Uma forma de agregar transações para este conjunto de dados é substituir todas as transações de uma única loja por uma única transação. Reduz as centenas ou milhares de transações diárias em uma determinada loja a uma única transação diária.
Agregação A precipitação anual média possui menos variabilidade do que a precipitação mensal média.
Amostragem Abordagem usada para selecionar um subconjunto dos objetos de dados a serem analisado. Usar uma amostra funcionará tão bem quanto usar o conjunto inteiro de dados se a amostra for representativa. Uma amostra é representativa se tiver aproximadamente a mesma propriedade do conjunto original de dados.
Técnicas de Amostragem Amostragem aleatória simples: amostragem sem substituição amostragem com substituição Possível problema Modelos de classificação para classes raras, é crítico que as classes raras sejam adequadamente representadas na amostra.
Técnicas de Amostragem Amostragem estratificada Números proporcionais de objetos são selecionados de cada grupo.
Redução de Dimensionalidade Conjunto de dados podem ter um grande número de características. Reduzir a dimensionalidade pode eliminar características irrelevantes e reduzir o ruído. O termo muitas vezes é usado para técnicas que reduzem a dimensionalidade de um conjunto de dados criando novos atributos que sejam uma combinação dos atributos antigos.
Técnicas de Álgebra Linear para Redução da Dimensionalidade Análise de Componentes Principais (PCA) Decomposição de Valor Único (SVD)
Discretização e Binarização Os dados devem estar na forma de atributos categorizados para algoritmos de classificação. Algoritmos que encontram padrões de associação requerem que os dados estejam na forma de atributos binários. Muitas vezes é necessário transformar um atributo contínuo em um categorizado (discretização). Tanto atributos contínuos quanto discretos podem precisar ser transformados em um ou mais atributos binários (binarização).
Binarização Com m valores categorizados, atribui-se unicamente a cada valor original um valor inteiro no intervalo [0, m-1]. Se o atributo for ordinal, a ordem deve ser mantida pela atribuição. A seguir, converta cada um dos m números inteiros em um número binário. Já que n = [log 2 (m)] dígitos binários são necessários para representar estes números inteiros. Represente esses números binários usando n atributos binários.
Binarização Valor categorizado Valor inteiro X 1 X 2 X 3 Ruim 0 0 0 0 Fraco 1 0 0 1 Satisfatório 2 0 1 0 Bom 3 0 1 1 Excelente 4 1 0 0 Tal transformação pode causar complicações, como a criação de relacionamentos não pretendidos entre os atributos transformados. Os atributos X 2 e X 3 são correlacionados para o valor Bom. Além disso, a análise de associação requer atributos binários assimétricos, onde apenas a presença do atributo (valor =1) é importante.
Binarização Para problemas de associação é necessário inserir um atributo binário para cada valor categorizado Valor categorizado Valor inteiro x 1 x 2 x 3 x 4 x 5 Ruim 0 1 0 0 0 0 Fraco 1 0 1 0 0 0 Satisfatório 2 0 0 1 0 0 Bom 3 0 0 0 1 0 Excelente 4 0 0 0 0 1
Discretização de Atributos Contínuos A discretização é geralmente aplicada em atributos que sejam usados na análise de classificação ou associação. A transformação de um atributo contínuo em um categórico envolve duas subtarefas: decidir quantas categorias e determinar como mapear os valores do atributo contínuo para essas categorias.
Discretização de Atributos Contínuos 1. Ordenar os valores do atributo contínuo e especificar n intervalos, com n-1 pontos de divisão. 2. Todos os valores de um intervalo são mapeados para o mesmo valor de categoria. O problema da discretização é decidir quantos pontos de divisão escolher e onde colocá-los.
Transformação de Variáveis Se refere a uma transformação que seja aplicada a todos os valores de uma variável. Tipos: Transformações funcionais simples Normalização
Transformação de Variáveis Funções Simples Para esse tipo, uma função matemática simples é aplicada a cada valor individualmente. Se x for uma variável, então exemplos de tais transformações incluem x k, log x, e x, x, 1/x, sen x ou x. ID Variável (x) Transformação log 10 (x) 1011 256 2.41 1012 16 1.20 1013 1 0 1014 9 0.95 1015 4 0.60
Transformação de Variáveis Normalização e Padronização O objetivo é fazer o conjunto inteiro de valores ter uma determinada propriedade. Exemplo: considere a comparação de pessoas baseada em duas variáveis: idade e renda. A diferença em renda provavelmente seja muito maior em termos absolutos do que a diferença de idade.
Transformação de Variáveis Normalização e Padronização Um exemplo tradicional é o da padronização de uma variável em estatística. Se ā for a média dos valores do atributo e S a seu desvio padrão, então a transformação a =(a ā)/s a cria uma nova variável que tem uma média 0 e um desvio padrão de 1. ā = 33.5 S a = 45.31477 Atributo a a 5-0.6289340 10-0.5185947 15-0.4082554 18-0.3420518 7-0.5847983 23-0.2317125 50 0.3641197 140 2.3502270
Transformação de Variáveis Normalização e Padronização Se variáveis diferentes devem ser combinadas, então tal transformação muitas vezes é necessária para evitar variáveis com valores grandes dominando os resultados do cálculo.
Medidas Semelhança e Diferença Semelhança e diferença são usadas em técnicas como, agrupamento, classificação e detecção de anomalias. Medidas como a correlação e distância euclidiana são úteis para dados densos como séries de tempos ou pontos bidimensionais. Medidas de semelhança do cosseno e Jaccard são úteis para dados esparsos como documentos.
Semelhança A semelhança entre dois objetos é uma medida numérica do grau no qual dois objetos se parecem. Semelhanças são geralmente não negativas e muitas vezes entre 0 (sem semelhança) e 1 (semelhança completa).
Diferença A diferença entre dois objetos é uma medida numérica do grau no qual os dois objetos são diferentes. Frequentemente, o termo distância é usado como sinônimo de diferença. As diferenças às vezes estão no intervalo [0,1], mas é comum que variem de 0 a.
Semelhança e Diferença entre atributos simples Atributo nominal: Neste caso, a semelhança é definida tradicionalmente como 1 se os valores forem correspondentes e 0 caso contrário. Atributo ordinal: As informações sobre a ordem devem ser levadas em consideração. Qualidade de um produto (fraca, razoável, satisfatória, boa, ótima). Para tornar esta observação quantitativa, os valores muitas vezes são mapeados com números inteiros sucessivos {fraca=0, razoável=1, satisfatória=2, boa=3, ótima=4}
Semelhança e Diferença entre atributos simples Atributo ordinal: {fraca=0, razoável=1, satisfatória=2, boa=3, ótima=4} Então d(p1,p2) = 3-2 = 1, ou d(p1,p2) = (3-2)/4 = 0,25 Uma semelhança para atributos ordinais pode então ser definida como s = 1- d. Atributos proporcionais ou intervalares: A medida natural de diferença entre dois objetos é a diferença absoluta dos seus valores.
Diferenças entre objetos de dados
Diferenças entre objetos de dados
Medidas de semelhança para dados binários Se x e y são dois objetos que consistam de n atributos binários, a comparação entre eles, ou seja, entre dois vetores binários, leva às seguintes quantidades (frequências): f 00 = número de atributos onde x é 0 e y é 0 f 01 = número de atributos onde x é 0 e y é 1 f 10 = número de atributos onde x é 1 e y é 0 f 11 = número de atributos onde x é 1 e y é 1
Medidas de semelhança para dados binários
Medidas de semelhança para dados binários Coeficiente de Jaccard Sejam x e y objetos de dados que representam duas linhas de uma matriz de transações. Cada atributo assimétrico corresponde a um item de uma loja, então o número 1 indica que o item foi comprado, caso contrário temos o número 0. O CCS diria que todas as transações são muito semelhantes, já que o número de produtos não comprados por algum cliente supera em muito o número de produtos comprados.
Medidas de semelhança para dados binários
Medidas de semelhança para dados binários X = (1,0,0,0,0,0,0,0,0,0) Y = (0,0,0,0,0,0,1,0,0,1) f 00 = 7 f 01 = 2 f 10 = 1 f 11 = 0 CCS = 0.7 J = 0
Medidas de semelhança para dados não binários Semelhança do cosseno Documentos podem ser representados como vetores, onde cada atributo representa a frequência na qual uma determinada palavra ocorre no documento. A semelhança do cosseno é uma das medidas mais comuns de semelhança de documentos.
Medidas de semelhança para dados não binários
Medidas de semelhança para dados não binários Semelhança do cosseno x = (3,2,0,5,0,0,0,2,0,0) y = (1,0,0,0,0,0,0,1,0,2) x.y = 5 x = 6.45 y = 2.24 cos(x,y)=0.34