Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters

Transcrição

1 Universidade Técnica de Lisboa INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO Informática e Sistemas de Informação Aplicados em Economia Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters

2 Descoberta de conhecimento em bases e dados. Pesquisa de Clusters - A análise de Clusters - Étapas da análise de Clusters - Métodos da análise de clusters - Medidas de distância e semelhança - Critérios para agregação e desagregação de casos Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 2

3 A Análise de Clusters Dado um conjunto de n indivíduos para os quais existe informação sobre a forma de p variáveis, o método de Análise de Clusters procede ao agrupamento dos indivíduos em função da informação existente, de tal modo que 1. os indivíduos pertencentes a um mesmo grupo sejam tão semelhantes quanto possível e 2. sempre mais semelhantes aos elementos do mesmo grupo do que a elementos dos restantes grupos. In: Estatística Multivariada Aplicada Elizabeth Reis Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 3

4 Etapas da análise de clusters - A selecção de indivíduos ou de uma amostra de indivíduos a serem agrupados; - A definição de variáveis a partir das quais será obtida a informação necessária ao agrupamento dos indivíduos; - A definição de uma medida de semelhança ou distância entre cada dois indivíduos; - A escolha de um critério de agregação ou desagregação dos indivíduos, isto é, a definição de um algoritmo de partição / classificação; - Por último, a validação dos resultados encontrados. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 4

5 A Selecção das Variáveis Tem de atender a um duplo problema: 1. Escolher de entre os dados disponíveis quais os mais significativos na abordagem do problema: conhecimento prévio do investigador sobre o assunto a estudar; 2. Atender ao tipo de variáveis utilizadas (contínuas, rácios, ordinais, nominais ou binárias), sobretudo quando estas estão definidas em diferentes unidades de medida. ESTANDARDIZAÇÃO prévia Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 5

6 Os Métodos de Análise de Clusters 1. Técnicas de optimização: definido um critério de agrupamento, a optimização indica qual deverá ser o grupo onde cada caso será incluído; pressupõe que os casos pertencem a um número k predeterminado de grupos; 2. Técnicas hierárquicas: que se podem subdividir em técnicas aglomerativas e divisivas, ambas partindo de uma matriz de semelhanças ou dissemelhanças (distâncias) entre os casos; estes métodos conduzem a uma hierarquia de partições P 1,P 2,...,P n do conjunto de n objectos em 1, 2,..., n grupos. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 6

7 Os Métodos de Análise de Clusters 3. Técnicas de densidade (density or mode-seeking): os grupos são formados através da procura de regiões que contenham uma concentração relativamente densa de casos. 4. Outras técnicas: que incluem aquelas em que se permite que haja sobreposição dos grupos (fuzzy clusters) e todas as restantes que não foram incluidas nas anteriores Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 7

8 Propriedades das Medidas de Semelhança / Distância 1. Simetria: dados dois objectos, x e y, a distância entre eles verifica a propriedade d(x,y) = d(y,x) > o 2. Desigualdade triangular: dados três objectos, x, y e z, as distâncias entre eles satisfazem a propriedade: d(x,y) < d(x,z) + d(z,y) 3. Diferenciabilidade de não idênticos: dados dois objectos, x e y d(x, y) 0 x y 4. Indiferenciabílidade de idênticos: dados dois objectos idênticos, x e x' d(x,x') = 0 Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 8

9 Classificação dos Índices de (Dis)Semelhança - Coeficientes de correlação - Medidas de distância - Coeficientes de associação - Medidas de semelhança probabilística. Todas estas medidas têm vantagens e desvantagens, mas os mais utilizados nas ciências sociais são os dois primeiros tipos. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 9

10 Medidas de distância (1) 1. Distância Euclideana: a distância entre dois casos (i e j) é a raiz quadrada do somatório dos quadrados das diferenças entre valores de i e j para todas as variaveis (v = 1 2,, p) 2. Quadrado da Distância Euclideana: a distância entre dois casos (i e j) é definida como o somatório dos quadrados das diferenças entre os valores de i e j para todas as variáveis (V = 1, 2,, p) p ( ) dij = Xiv Xjv v= 1 p 2 2 ( ) d ij = Xiv Xjv v= 1 Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 10 2

11 Medidas de distância (2) 3. Distância absoluta ou City - Block Metric: a distância entre dois elementos (í e j) é a soma dos valores absolutos das diferenças entre os valores das variáveis (v = 1, 2... p) para aqueles dois casos: p dij = Xiv Xjv v= 1 4. Distância de Minkowski: definida a partir da medida anterior, pode ser considerada como a generalização da distância Euclideana (as duas coincidem quando r=2): p dij = Xiv Xjv v = 1 Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 11 r 1 r

12 Medidas de distância (3) 5. Distância de Mahalanobis ou distância generalizada. Considera a matriz de covanância X para o cálculo das distâncias: onde Xi e Xj são os vectores de valores das variáveis para os indivíduos i e j. 6. Distância de Chebishev: a distância entre dois casos i e j é o valor máximo para todas as variáveis, das diferenças entre esses dois indivíduos. Dij=(Xi - Xj)' Σ -1 (Xi - Xj) Dij = max Xiv - Xjv v Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 12

13 Coeficientes de Associação (1) Particularmente úteis para definir a semelhança entre indivíduos caracterizados por variáveis qualitativas de tipo booleano: 0 - ausência da característica para determinado indivíduo e 1 - presença da característica. Mais de trinta coeficientes de associação foram já propostos. Alguns deles merecem tratamento particular: - os coeficientes de emparelhamento simples, - os coeficientes de Jaccard e de Gower, - e o coeficiente de correlação para variáveis binárias. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 13

14 Coeficientes de Associação (2) Considerem-se os indivíduos i e j caracterizados por p variáveis binárias e construa-se uma tabela de contingência do seguinte modo: INDIVÍDUO I Totais a b a+b INDIVÍDUO J 0 c d c+d Totais a + c b + d p = a + b + c + d Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 14

15 Coeficientes de Associação (2) "a" número de características que assumem o valor 1 em ambos os indivíduos, "b" o número de características com valor 1 no indivíduo j e 0 no indivíduo i, "c" o número de características presentes em i mas ausentes em j, e "d" as características simultaneamente ausentes em i e j. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 15

16 Coeficientes de Emparelhamento Simples Sij = ( a + d) ( a + b + c + d) Dij = ( a ( b + c) + b + c + d) - Sij é a relação entre o número de características presentes e ausentes simultaneamente para os dois individuos e o número total de características, varia entre 0 e 1 e mede a semelhança entre cada dois indivíduos; - Dij é o quociente entre o número de características presentes num dos indivíduos e ausentes no outro e o número total de características, varia entre 0 e 1 e mede a distância entre dois indivíduos. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 16

17 Coeficientes de Jaccard sij = a a + b + c ou dij = b + c a + b + c evitam a contribuição da ausência conjunta de uma característica para o cálculo da semelhança ou distância entre dois individuos. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 17

18 Coeficientes Johnson e Wichern COEFICIENTE JUSTIFICAÇÃO 1) 2(a+d) / (2(a+d)+b+c) Peso duplo às presenças e ausências simultâneas. 2) (a+d) / (a+d + 2(b+c)) Peso duplo às situações discordantes, inclusão das ausências simultãneas 3) 2a / (2a + b + c) Peso duplo às presenças simultâneas, exclusão das ausências simultâneas. 4) a / (a + 2 (b + c) Peso duplo às situações discordantes, exclusão das ausências simultâneas 5) a / (b + c) Quociente entre pesenças simultâneas e situações discordantes, exclusão das ausências simultâneas Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 18

19 O coeficiente de Gower p p sij = / v= 1 sijv v= 1 wijv s ijv é o valor da semelhança entre os indivíduos i e j para a variável v e W ijv é a ponderação a afectar à variável v e que será: - 1 se a comparação para a variável v for considerada válida; - 0 se a comparação não for considerada válida, por exemplo, quando pelo menos um dos indivíduos apresenta uma nãoresposta para a variável em causa. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 19

20 Agregação e Desagregação dos Casos (1) Os vários métodos pretendem responder, de forma diferente, às seguintes questões: - distância entre indivíduos do mesmo grupo e distância entre indivíduos de grupos diferentes; - dispersão dos indivíduos dentro do grupo; - densidade dos indivíduos dentro e fora dos grupos. Diferem no modo como estimam distâncias entre grupos já formados e outros grupos ou indivíduos por agrupar. O processo de agrupamento de indivíduos já agrupados depende da distância entre os grupos. Portanto, diferentes definições destas distâncias poderão resultar em diferentes soluções finais. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 20

21 Agregação e Desagregação dos Casos (2) Não existe aquilo a que se possa chamar o melhor critério de (des)agregação dos casos em análise de clusters. É prática comum utilizar vários critérios e fazer a comparação dos resultados. Se estes forem semelhantes, é possível concluir que se obtiveram resultados com elevado grau de estabilidade e, portanto, fiáveis. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 21

22 Agregação e Desagregação dos Casos (3) Os critérios de agregação mais utilizados são os seguintes: 1. Single linkage ou critério do vizinho mais próximo 2. Complete linkage ou critério do vizinho mais afastado 3. Critério da média dos grupos 4. Critério do centróide 5. Critério de Ward Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 22

23 Single Linkage ou Critério do Vizinho mais Próximo A semelhança entre dois grupos corresponde à semelhança máxima entre dois casos quaisquer pertencentes a esses grupos, ou dito de outro modo, DOIS GRUPOS SÃO REAGRUPADOS NUM SÓ DE ACORDO COM A DISTÂNCIA ENTRE OS SEUS CASOS MAIS PRÓXIMOS Dados dois grupos (i, j) e (k), a distância entre os dois é a menor das distâncias entre os elementos dos dois grupos: d(i,j)k = min { d ik ; d jk } Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 23

24 Complete Linkage ou Critério do Vizinho mais Afastado A distância entre dois grupos é agora definida como sendo a distância entre os seus elementos mais afastados ou menos semelhantes. Dados dois grupos (i, j) e (k), a distância entre eles é a maior das distâncias entre os seus elementos: d(i,i)k = max (dik; djk) O conjunto de elementos em cada grupo é mais semelhante a todos os restantes elementos do grupo do que a qualquer dos elementos dos restantes grupos. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 24

25 Critério da Média dos Grupos Esta estratégia de agrupamento define a distância entre dois grupos, i e j, como sendo a média das distâncias entre todos os pares de indivíduos constituídos por elementos dos dois grupos. Vantagem: evitar valores extremos e tomar em consideração toda a informação dos grupos. Um grupo passa a ser definido como um conjunto de indivíduos no qual cada um tem mais semelhanças, em média, com todos os membros do mesmo grupo do que com todos os elementos de qualquer outro grupo. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 25

26 Critério do Centróide A distância entre dois grupos e definida como a distância entre os seus centróides, pontos definidos pelas médias das variáveis caracterizadoras dos indivíduos de cada grupo, isto é, o método do centróide calcula a distância entre dois grupos como a diferença entre as suas médias, para todas as variáveis. Uma desvantagem deste método é que se os dois grupos forem muito diferentes em termos de dimensão, o centróide do novo agrupamento estará mas próximo daquele que for maior e as características do grupo menor tenderão a perder-se. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 26

27 Critério de Ward Baseia-se na perda de informação resultante do agrupamento dos indivíduos e medida através da soma dos quadrado dos desvios das observações individuais relativamente às médias do grupos em que são classificadas. Etapas: - calcular as médias das variáveis para cada grupo; - calcular o quadrado da distância Euclideana entre essas médias e os valores das variáveis para cada indivíduo; - somar as distâncias para todos os indivíduos; - optimizar a variância mínima dentro dos grupos. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 27