CRM e Prospecção de Dados

Documentos relacionados
CRM e Prospecção de Dados

Utilização do SOLVER do EXCEL

QUALITATIVA VARIÁVEL QUANTITATIVA

Notas sobre a Fórmula de Taylor e o estudo de extremos

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por

Por que o quadrado de terminados em 5 e ta o fa cil? Ex.: 15²=225, 75²=5625,...

UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO PROGRAMA DE EDUCAÇÃO TUTORIAL - MATEMÁTICA PROJETO FUNDAMENTOS DE MATEMÁTICA ELEMENTAR

x0 = 1 x n = 3x n 1 x k x k 1 Quantas são as sequências com n letras, cada uma igual a a, b ou c, de modo que não há duas letras a seguidas?

Cláudio Tadeu Cristino 1. Julho, 2014

a 1 x a n x n = b,

Análise Exploratória de Dados

ficha 3 espaços lineares

E A D - S I S T E M A S L I N E A R E S INTRODUÇÃO

IMES Catanduva. Probabilidades e Estatística. no Excel. Matemática. Bertolo, L.A.

Correlação e Regressão Linear

Análise de Regressão Linear Simples e Múltipla

Faculdade Sagrada Família

QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO

Exercícios Teóricos Resolvidos

Histogramas. 12 de Fevereiro de 2015

IBM1018 Física Básica II FFCLRP USP Prof. Antônio Roque Aula 6. O trabalho feito pela força para deslocar o corpo de a para b é dado por: = =

INE 5111 Gabarito da Lista de Exercícios de Probabilidade INE 5111 LISTA DE EXERCÍCIOS DE PROBABILIDADE

UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE MATEMÁTICA 5 0 Encontro da RPM TRANSFORMAÇÕES NO PLANO

O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.

Pré processamento de dados II. Mineração de Dados 2012

Análise de Componente Principais (PCA) Wagner Oliveira de Araujo

CRM e Prospecção de Dados

Potenciação no Conjunto dos Números Inteiros - Z

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

ActivALEA. active e actualize a sua literacia

Lista de Exercícios 4: Soluções Sequências e Indução Matemática

1 Tipos de dados em Análise de Clusters

Aula 4 Estatística Conceitos básicos

Múltiplos Estágios processo com três estágios Inquérito de Satisfação Fase II

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

5 Equacionando os problemas

2aula TEORIA DE ERROS I: ALGARISMOS SIGNIFICATIVOS, ARREDONDAMENTOS E INCERTEZAS. 2.1 Algarismos Corretos e Avaliados

Resolução de sistemas lineares

Só Matemática O seu portal matemático FUNÇÕES

Álgebra Linear. Mauri C. Nascimento Departamento de Matemática UNESP/Bauru. 19 de fevereiro de 2013

CAPÍTULO 9 Exercícios Resolvidos

Matemática - UEL Compilada em 18 de Março de Prof. Ulysses Sodré Matemática Essencial:

APLICAÇÕES DA DERIVADA

AULAS 04 E 05 Estatísticas Descritivas

Revisão de Estatística Básica:

Departamento de Matemática - UEL Ulysses Sodré. Arquivo: minimaxi.tex - Londrina-PR, 29 de Junho de 2010.

O Problema do Troco Principio da Casa dos Pombos. > Princípios de Contagem e Enumeração Computacional 0/48

Sumário. Prefácio... xi. Prólogo A Física tira você do sério? Lei da Ação e Reação... 13

INTRODUÇÃO AOS MÉTODOS FACTORIAIS

Arquitetura de Rede de Computadores

9. Derivadas de ordem superior

Plano Curricular de Matemática 3.º Ano - Ano Letivo 2015/2016

Conceitos e fórmulas

Capítulo 1. x > y ou x < y ou x = y

CAPÍTULO 5 APRESENTAÇÃO E ANÁLISE DOS RESULTADOS

UNIVERSIDADE FEDERAL DO PIAUÍ (UFPI) ENG. DE PRODUÇÃO PROBABILIDADE E ESTATÍSTICA 2

Resposta Transitória de Circuitos com Elementos Armazenadores de Energia

Notas de aula número 1: Otimização *

Lista 2 - Vetores II. Prof. Edu Física 2. O que é necessário para determinar (caracterizar) uma: a) grandeza escalar? b) grandeza vetorial?

Método dos mínimos quadrados - ajuste linear

Algoritmos e Estrutura de Dados III. Árvores

APROG - Civil. Excel. Técnicas de pesquisa de informação em tabelas. Instituto Superior de Engenharia do Porto

FACULDADE CAMPO LIMPO PAULISTA MESTRADO EM CIÊNCIA DA COMPUTAÇÃO. Projeto e Análise de Algoritmos II Lista de Exercícios 2

AULAS 14, 15 E 16 Análise de Regressão Múltipla: Problemas Adicionais

FUNÇÃO REAL DE UMA VARIÁVEL REAL

Sistemas Lineares. Módulo 3 Unidade 10. Para início de conversa... Matemática e suas Tecnologias Matemática

Engenharia de Software e Sistemas Distribuídos. Enunciado Geral do Projecto

Unidade VI. Validação e Verificação de Software Teste de Software. Conteúdo. Técnicas de Teste. Estratégias de Teste

Prova Escrita de Matemática Aplicada às Ciências Sociais

Análise de Variância com dois ou mais factores - planeamento factorial

Barómetro Regional da Qualidade Avaliação da Satisfação dos Utentes dos Serviços de Saúde

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

Análise de regressão linear simples. Departamento de Matemática Escola Superior de Tecnologia de Viseu

5 Circuitos Equivalentes

PROJETO DE REDES

Objetivos: Construção de tabelas e gráficos, escalas especiais para construção de gráficos e ajuste de curvas à dados experimentais.

CRM e Prospecção de Dados

Batalha Naval Algoritmos de Busca. Correlações curriculares Matemática: Números: maior que, menor que, iguais a.

CAP. I ERROS EM CÁLCULO NUMÉRICO

1. Os métodos Não-Paramétricos podem ser aplicados a uma ampla diversidade de situações, porque não exigem populações distribuídas normalmente.

Definições (parágrafo 9) 9 Os termos que se seguem são usados nesta Norma com os significados

Métodos Matemáticos para Gestão da Informação

CAPÍTULO 1 MEDIÇÃO E O ERRO DE MEDIÇÃO

N1Q1 Solução. a) Há várias formas de se cobrir o tabuleiro usando somente peças do tipo A; a figura mostra duas delas.

Diagrama de transição de Estados (DTE)

NORMA CONTABILISTICA E DE RELATO FINANCEIRO 14 CONCENTRAÇÕES DE ACTIVIDADES EMPRESARIAIS. Objectivo ( 1) 1 Âmbito ( 2 a 8) 2

3. Características amostrais. Medidas de localização e dispersão

INE Procedimentos de Análise Bidimensional de variáveis QUANTITATIVAS utilizando o Microsoft Excel. Professor Marcelo Menezes Reis

EQUAÇÕES E INEQUAÇÕES DE 1º GRAU

Tópico 11. Aula Teórica/Prática: O Método dos Mínimos Quadrados e Linearização de Funções

ipea A ESCOLARIDADE DOS PAIS E OS RETORNOS À EDUCAÇÃO NO MERCADO DE TRABALHO 1 INTRODUÇÃO 2 DADOS


A Curva de Lorenz e o Índice de Gini

POC 13 - NORMAS DE CONSOLIDAÇÃO DE CONTAS

Autómatos Finitos Determinísticos

CURSO ONLINE RACIOCÍNIO LÓGICO

Recordamos que Q M n n (R) diz-se ortogonal se Q T Q = I.

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

Transcrição:

CRM e Prospecção de Dados Marília Antunes aula de 9 Março 09 2 Dados e medição 2.1 Introdução O objectivo a que nos propomos é o de descobrir relações existentes no mundo real a partir de dados que o descrevem. O facto dessas relações serem procuradas em tais conjuntos de informação e não directamente no ambiente de interesse faz com que seja de extrema importância que se perceba qual a informação contida nos dados (resultante de medição) e de que modo foi representada. Em geral, os dados são um conjunto de representações simbólicas que associam determinado valor a uma dada propriedade do objecto observado, sendo, depois, as relações entre objectos representadas por relações numéricas entre variáveis. Obviamente, o processo de medição é determinante para a subsequente análise que se poderá fazer. Como ficou claro anteriormente, o conceito de distância entre dois objectos é fundamental. 2.2 Tipos de medição As diferenças entre tipos de medição podem resultar tanto das diferenças existentes entre as variáveis a que as medições se reportam, como da forma como estas são estabelecidas. Mais concretamente, 1. dependem do tipo da variável: Variáveis categóricas de tipo nominal, isto é, variáveis cujos valores são categorias não passíveis de ordenação (tais como cor do cabelo, religião, área de residência), podem ser representadas por números. Por exemplo, (preto=1, castanho=2, ruivo=3, louro=4, etc). No entanto, estes valores não têm qualquer significado numérico. A única informação que retiramos é que são 1

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 2 Figura 1: As características dos objectos são representadas numericamente e reunidas num vector. As relações entre os objectos (indivíduos) são representadas numericamente e resultam de algum tipo de medição. diferentes e por isso estão representadas por valores diferentes. E se quisermos, podemos atribuir os números às categorias segundo qualquer outro critério. Também é verdade que qualquer outro conjunto de números representando as categorias servirá igualmente bem a sua descrição. Variáveis ordinais, tais como por exemplo a escala de severidade utilizada em medicina, são variáveis que, embora sejam categóricas, as suas categorias são ordenáveis. Quando são representadas por números, os valores atribuídos às categorias, embora não tenham um significado quantitativo, têm de traduzir a ordem existente entre as categorias da variável que representam. Por exemplo, (ligeiro=1, moderado=2, severo=3) ou (ligeiro=3, moderado=2, severo=1) são representações aceitáveis para a escala de severidade, ao passo que (ligeiro=2, moderado=3, severo=1) já não é. Variáveis intervalares, como por exemplo a temperatura ou o calendário, são variáveis de natureza quantitativa e, portanto, devem ser expressas através de números. Para além de serem passíveis de ordenação, a diferença entre os valores que as representam têm sempre o mesmo significado, o que não acontece com as variáveis ordinais. Por exemplo, a diferença no mercúrio dum termómetro entre 16 o C e 17 o C é a mesma que entre -2 o C e -1 o C, o que já não acontece entre 1 e 2 e 2 e 3, na escala de severidade utilizada em

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 3 medicina. Outro aspecto das variáveis intervalares é que, embora na sua escala possa existir um zero, esse valor não é um zero absoluto. Tome-se como exemplo, a expressão da temperatura em graus celsius e em graus Fahrenheit. Estas variáveis suportam transformações tais como a multiplicação por uma constante mais a adição de uma constante, sem que as suas características sejam distorcidas. Variáveis percentuais, que se assemelham às variáveis intervalares com a diferença que, independentemente da escala usada para as medir, todas partilham do mesmo zero - possuem um zero absoluto. Peso e comprimento são os exemplos mais correntes de variáveis dete tipo. Para que não sofram distorção, estas variáveis permitem apenas transformações que alterem a sua escala (multiplicação por uma constante). 2. dependem da forma como a informação é recolhida: Frequentemente, a medição (informação recolhida) não resulta efectivamente de uma medição (mais ou menos exacta) da variável, mas antes de uma apreciação de acordo com uma escala préestabelecida ou mesmo de uma comparação ou ordenação. Por exemplo, perante um conjunto de n indivíduos, em vez de se registar o seu peso, poderá simplesmente, registar-se para cada um, qual a sua ordem no grupo relativamente à característica peso. Desta forma, por exemplo, não se poderá dizer que os indivíduos compeso= 1 epeso=2 apresentam menos diferença de peso entre si do que os indivíduos com peso=3 e peso=7, por exemplo. Apenas poderemos dizer que existe menos diferença de peso entre os indivíduos com peso=1 e peso=2 do que entre os indivíduos com peso=1 e peso=3 ou peso=1 e peso=7. É necessário que a representação numérica reflicta as propriedades empíricas do sistema em estudo. 2.3 Medidas de distância Muitas técnicas utilizadas em prospecção de dados (por exemplo, os métodos de classificação do vizinho mais próximo, análise de clusters (aglomerados) e métodos designados por multidimensional scaling methods) são baseados em medidas de semelhança entre objectos.

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 4 A semelhança entre objectos pode ser obtida, essencialmente, de duas formas. Em primeiro lugar, podem ser obtidas directamente a partir dos objectos. Tal acontece, por exemplo, quando num estudo de mercado, é pedido aos inquiridos que ordenem pares de artigos de acordo com a sua semelhança. A segunda possibilidade consiste em obter medidas de semelhança indirectamente, a partir de vectores de medições ou características descrevendo cada objecto. Neste caso, torna-se necessário definir de forma precisa o conceito de semelhante, de modo a que as medidas de semelhança possam ser obtidas formalmente. Em vez de falarmos da semelhança entre dois objectos, há situações em que é mais conveniente pensarmos em quão dissemelhantes dois objectos são. Uma vez na presença de uma medida de semelhança ou de dissemelhança definida formalmente, podemos obter a outra por aplicação à medida inicial de uma transformação monótona decrescente. Por exemplo, se s(i,j) representa a semelhança e d(i,j) representa a dissemelhança entre o objecto i e o objecto j, então d(i,j) = 1 s(i,j) e d(i,j) = 2(1 s(i,j)) são duas possíveis transformações. O termo proximidade é usado frequentemente para designar medidas deste tipo, podendo referir-se tanto a uma medida de semelhança como de dissemelhança quando esta é obtida a partir de medições realizadas sobre os objectos. Outros dois termos usados neste contexto, são distância e métrica. O termo distância é usado informalmente significando o mesmo que dissemelhança. Uma métrica, é uma medida de dissemelhança que satisfaz as seguintes condições: 1. d(i,j) 0 para todos i e j, e d(i,j) = 0 se e só se i = j; 2. d(i,j) = d(j,i) para todos i e j; 3. d(i, j) d(i, k) + d(k, j) para todos i, j e k (desigualdade triangular). 2.3.1 Distância entre objectos caracterizados por variáveis quantitativas Suponhamos que temos n objectos e, para cada um deles, um vector de p valores reais correspondentes a medições realizadas sobre esses objectos. Seja x(i) = (x 1 (i),x 2 (i),...,x p (i)), 1 i n, o vector de medições para o i-ésimo objecto, onde x k (i) representa a medição obtida para a k-ésima variável sobre o i-ésimo objecto.

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 5 Figura 2: Distância euclideana entre dois objectos representados num espaço bi-dimensional. Distância euclideana entre o i-ésimo e o j-ésimo objectos define-se como d E (i,j) = p (x k (i) x k (j)) 2. (1) k=1 Nos casos em que p = 2 (veja-se a Figura 2) ou p = 3, e os valores das variáveis correspondem efectivamente a medidas de comprimento (ou pesos), a distância euclideana corresponde a uma medida física de distância (ou de peso), desde que seja considerada nas medições sempre a mesma unidade de medida. Isto faz sentido, sobretudo, se as variáveis são comensuráveis, isto é, se dizem respeito a características que faça sentido comparar por estarem registadas na mesma unidade. Se tal não acontecer (por exemplo se algumas medições presentes no vector disserem respeito a pesos e outras a comprimentos), calcular a distância euclideana pode fazer pouco sentido. Inclusivamente, não existe uma unidade em que se possa expressar a distância. Como na prática temos, muitas vezes, conjuntos de dados contendo variáveis não comensuráveis, é necessário encontrar uma forma de contornar a questão das unidades de medida e da arbitrariedade da escolha da unidade a considerar para a distância. Um procedimento corrente consiste na padronização (estandardização) dos dados. Isto faz-se di-

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 6 vidindo os valores de cada variável pelo seu desvio padrão amostral. Este procedimento faz com que a todas as variáveis seja atribuída igual importância o que, por si só, pode ser considerado como uma acção arbitrária. O desvio padrão para a k-ésima variável é estimado por ˆσ k = 1 n (x k (i) µ k ) n 1 2 (2) i=1 onde µ k é o valor médio da variável X k. Quando este valor é desconhecido (o que normalmente acontece), é estimado pela média amostral x k = 1 n n i=1 x k(i). Assim, x k = x k ˆσ k remove o efeito de escala capturado por ˆσ k. Quando temos alguma ideia sobre a importância relativa das variáveis, essa informação pode ser introduzida no cálculo da distância fazendo com que, depois de estandardizadas, as variáveis entrem na expressão da distância euclideana multiplicadas por um termo - peso - levando à expressão da distância euclideana pesada d WE (i,j) = p w k (x k (i) x k (j)) 2. (3) k=1 Tanto a distância euclideana como a distância euclideana pesada são aditivas, no sentido em que as variáveis contribuem de forma independente para o cálculo da distância. No entanto, esta propriedade não é, necessariamente, desejável. Covariância e correlação Sejam X e Y duas variáveis e admitamos que cada uma delas foi observada sobre n objectos. Foram registados os valores x(1),..., x(n) e y(1),..., y(n) para X e Y respectivamente. A covariância amostral entre X e Y definese como Cov(X,Y ) = 1 n (x(i) x)(y(i) ȳ) (4) n 1 i=1 onde x e ȳ representam a média amostral de X e a média amostral de Y, respectivamente. A covariância é uma medida da variação conjunta de X e Y : toma um valor grande positivo se valores grandes de X tenderem a estar associados a

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 7 valores grandes de Y e valores pequenos de X associados a valores pequenos de Y. Se a valores grandes de X estiverem associados valores pequenos de Y e vice-versa, a covariância tomará um valor grande em termos absolutos mas negativo. Na presença de p variáveis, constrói-se uma matriz p p dos valores das covariâncias entre as variáveis. A entrada (k, l) corresponde à covariância entre as variáveis X k e X l. Da definição de covariância, depreende-se facilmente que a matriz de covariâncias é simétrica e que os valores presentes na diagonal correspondem à variância. 1 No caso de se tratarem de populações normais, nas equações (2) e (4), n 1 é substituído por 1, passando as expressões a corresponder às expressões dos n estimadores de máxima verosimilhança do desvio padrão e da covariância, respectivamente. Os valores que a covariância assume dependem da variedade de valores que X e Y podem tomar. Esta dependência pode ser removida por estandardização, dividindo os valores de X e de Y pelos respectivos desvios padrões. O resultado é o coeficiente de correlação amostral, ρ(x,y ), entre X e Y : n i=1 (x(i) x)(y(i) ȳ) ρ(x,y ) = n i=1 (x(i) x)2 n i=1 (y(i) (5) ȳ)2 A correlação entre duas variáveis toma valores no intervalo [ 1, 1], com uma interpretação semelhante à que se faz para a covariância. Uma correlação igual a 1 ou a -1 significa dependência linear perfeita, com associação directa no primeiro caso e indirecta no segundo. Note-se que tanto a covariância como a correlação capturam a dependência linear entre duas variáveis. As suas designações completas (e mais precisas) são, aliás, covariância linear e coeficiente de correlação linear. Se considerarmos pontos uniformemente distribuídos sobre uma circunferência de centro na origem, as coordenadas destes pontos são claramente dependentes mas, no entanto a sua correlação linear é nula. A independência significa ausência de relação mas a ausência de correlação linear em geral não implica inexistência de relação entre as variáveis. Os exemplos na Figura 3 ilustram algumas destas situações. Distância de Mahalanobis entre duas medições p-dimensionais x(i) e x(j) define-se como d MH (i,j) = (x(i) x(j)) T Σ 1 (x(i) x(j)), (6) onde T representa a transposta, Σ é a matriz p p de covariâncias e Σ 1 standardiza os dados. Note-se que se Σ = I, isto é, se as variáveis

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 8 (a) r = 0.03 (b) r = 0.03 y y 0 5 10 15 3 2 1 0 1 2 x x (c) r = 0.91 (d) r = 0.79 y y x x Figura 3: De cima para baixo e esquerda para a direita, (a) correlação baixa - inexistência de relação significativa entre as duas variáveis; (b) correlação baixa - inexistência de relação linear mas presença de relação não linear entre as variáveis; (c) correlação elevada - existência de relação linear significativa entre as variáveis; (d) correlação elevada mas a relação existente entre as variáveis é melhor descrita por um modelo não linear nas variáveis.

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 9 forem não correlacionadas, d MH (i,j) = d E (i,j), ou seja, a distância de Mahalanobis coincide com a distância euclideana. Isto significa que faz sentido utilizar a distância de Mahalanobis em vez da distância euclideana nas situações em que as variáveis consideradas são (fortemente) correlacionadas e, portanto, o efeito de redundância (repetição da informação) deva ser corrigido para que exista uma maior justiça na importância dada às variáveis. A distância de Mahalanobis corresponde a à distância euclieana pesada, com uma escolha particular para os pesos: Σ 1. Exemplo 1. Consideremos que usando a mesma unidade de medição (para que os resultados sejam comensuráveis), estamos interessados em medir a altura e o diâmetro de chávenas de café e usar estas medições para avaliar a semelhança entre as chávenas. Suponhamos que se opta por fazer, para cada objecto, uma medição do diâmetro e cem medições da altura. O resultado é o registo de valores correspondentes a 101 variáveis, cem das quais apresentando valores extremamente próximos, diferindo apenas no que se poderá chamar de erros de medição. Se usarmos estas 101 variáveis para calcular a distância euclideana entre dois objectos, a característica altura dominaria certamente a avaliação, apesar de 99 destas variáveis nada acrescentarem ao valor da primeira medição de altura para além já referido erro de medição. A solução passa por, não só estandardizar os dados relativamente a cada variável mas também ter em conta a covariância entre as variáveis - calcular a distância de Mahalanobis. Outras generalizações da distância euclideana pesada podem ser consideradas. Uma generalização óbvia é a a designada métrica de Minkowsky ou métrica L λ : ( p ) 1 λ (x k (i) x k (j)) λ, (7) k=1 onde λ 1. A distância euclideana corresponde ao caso particular λ = 2. O caso λ = 1 toma a designação de métrica de Manhattan p x k (i) x k (j). (8) k=1 O caso λ corresponde à métrica L max x k (i) x k (j). (9) k

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 10 Distância coseno, que é na verdade uma medida de semelhança, define-se como p k=1 d cos (i,j) = x k(i)x k (j), (10) x(i) x(j) onde x(i) é a norma de x(i), ou seja, x(i) = p k=1 x k(i) 2. Existem muitas outras métricas que poderiam ser consideradas para medições quantitativas. A questão é, mais de que definir uma métrica, decidir qual é a métrica mais apropriada para cada situação. 2.3.2 Distância entre objectos caracterizados por variáveis categóricas Quando os dados são binários multivariados, podemos avaliar a distância de dois objectos x(i) e x(j) através da contagem do número de variáveis para as quais dois apresentam o mesmo valor ou valor diferente. Se todas as p variáveis forem binárias, constrói-se uma tabela como a Tabela 1, onde n 0,0 representa o número de variáveis para as quais ambos os objectos apresentam o valor 0, n 0,1 representa o número de variáveis para as quais o objecto i toma o valor 0 e o objecto j toma o valor 1, n 1,0 representa o número de variáveis para as quais o objecto i toma o valor 1 e o objecto j toma o valor 0 e n 1,1 representa o número de variáveis para as quais ambos os objectos tomam o valor 1. Nestes casos, faz sentido pensarmos numa medida de semelhança, j = 0 j = 1 i = 0 n 0,0 n 0,1 i = 1 n 1,0 n 1,1 Tabela 1: Classificação cruzada para duas variáveis binárias. mais do que de dissemelhança. Coeficiente de concordância simples é a medida de semelhança mais óbvia, sendo dado por n 0,0 + n 1,1 n 0,0 + n 0,1 + n 1,0 + n 1,1. (11) Representa a proporção de variáveis em que os objectos apresentam o mesmo valor, isto é, a proporção de concordâncias, onde n 0,0 + n 0,1 + n 1,0 + n 1,1 = p, o número total de variáveis.

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 11 Por vezes é desapropriado considerar as concordâncias quando estas se referem a zeros ou a uns, dependendo do contexto e do significado que tem a variável assumir o valor 0 ou o valor 1. Coeficiente de Jaccard é a medida a utilizar nesses casos. É dada por n 1,1 n 0,1 + n 1,0 + n 1,1. (12) Exemplo 2. Sejam x(i) e x(j) os vectores referentes a dois textos, tais que a k-ésima componente toma o valor 0 ou 1 consoante a k-ésima palavra do dicionário considerado está ausente ou presente no texto. Aqui, os valores das variáveis dizem respeito, portanto, à ausência ou presença de determinada palavra no texto. As correspondências de zeros são irrelevantes pois tem pouca importância para avaliar a semelhança de dois textos que ambos não contenham certa palavra. Interessa avaliar a proporção de palavras que estão presentes em ambos considerando o conjunto de palavras presentes no conjunto dos dois textos. Coeficiente de Dice corresponde a uma extensão desta ideia. Se as concordâncias (0,0) são irrelevantes, então a relevância dada às discordâncias (0,1) e (1,0) devem ter uma relevância que fique entre a relevância atribuída às concordâncias (0,0) e (1,1). Desta forma, as discordâncias (0,1) e (1,0) devem ser multiplicadas por 1 2, obtendo-se a seguinte expressão para o coeficiente de concordância de dice: 2n 1,1 n 0,1 + n 1,0 + 2n 1,1. (13) Tal como acontece com os dados quantitativos, existem numerosas medidas de semelhança. No entanto, também aqui a dificuldade não é tanto o da definição da medida mas saber qual a medida que possui as propriedades que a tornam a mais adequada para o problema em questão. Para dados categóricos em que as variáveis tenham mais do que duas categorias, pode-se atribuir a pontuação 1 quando variáveis apresentam o mesmo valor e a pontuação 0 caso contrário, tomando-se como medida de semelhança a soma destas pontuações dividida pelo número de variáveis, p. Se o conhecimento sobre as categorias o permitir, poder-se-á modificar estas pontuações atribuindo-se valores diferentes aos diferentes tipos de discordância e construir uma versão da Tabela 2. Exemplo 3. Dados dois objectos x(i) e x(j) descritos por vectores de variáveis categóricas, todas contendo três categorias, o número de concordâncias e discordâncias esquematiza-se como na Tabela 3, onde as entradas correspondem

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 12 j = 0 j = 1 j = 2 i = 0 3 2 1 i = 1 2 3 2 i = 2 1 2 3 Tabela 2: Exemplo de pontuação para concordâncias e discordâncias de variáveis categóricas com duas categorias. à contagem das concordâncias e discordâncias. A soma de todas as entradas da tabela é igual a p. Para uma pontuação como a considerada na Tabela 2, j = 0 j = 1 j = 2 i = 0 n 0,0 n 0,1 n 0,2 i = 1 n 1,0 n 1,1 n 1,2 i = 2 n 2,0 n 2,1 n 2,2 Tabela 3: Classificação cruzada para objectos descritos por vectores de variáveis categóricas, todas contendo três categorias. uma medida de semelhança entre os objectos é, por exemplo, n 0,2 + n 2,0 + 2(n 0,1 + n 1,0 + n 1,2 + n 2,1 ) + 3(n 0,0 + n 1,1 + n 2,2 ). (14) 3p O caso mais frequente é, no entanto, que os objectos sejam caracterizados por variáveis de determinados tipos: quantitativas, categóricas binárias, categóricas com mais do que duas categorias e categóricas ordinais. Neste caso é necessário combinar as diferentes medidas que se revelarem adequadas para cada subconjunto de variáveis. Coeficiente de Gower s(i,j) = p k=1 w k(i,j)s k (i,j) p k=1 w, (15) k(i,j) com w k (i,j) = 1 e obedecendo às seguintes condições: toma-se w k (i,j) = 0 quando o valor da k-ésima variável é desconhecido para o objecto i ou para o objecto j ou para remover um caso de concordância (0,0) no caso da k-ésima variável ser binária; se a k-ésima variável for categórica não binária, s k (i,j) = 0 a menos que os objectos apresentem a mesma categoria, caso em que s k (i,j) = 1;

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 13 se a k-ésima variável for quantitativa, s k (i,j) = 1 x k(i) x k (j) max x k min x k