EXECUTIVE MASTER EM APPLIED BUSINESS ANALYTICS UNIDADE CURRICULAR: MÉTODOS DE SEGMENTAÇÃO Relatório da Aplicação do Algoritmo SOM Mapa Auto-organizado Elisabeth Fernandes Nuno Pinho da Silva Ano letivo 2015/2016 Página 1 de 4
Aplicação do Algoritmo SOM Mapa Auto-organizado Este relatório descreve e sumariza os resultados do agrupamento dos países constantes na base de dados BLI.sav com base da aplicação do algoritmo SOM (Self Organizing Maps) Mapas Auto-organizados. Os dados BLI são parte do estudo da OCDE e caracterizam a qualidade de vida em 36 Países com base em 24 indicadores, nomeadamente, 3 referem-se à habitação, 2 variáveis relativas aos rendimentos do agregado familiar, 4 referem-se ao emprego, 1 indicador referese ao suporte comunitário, 3 referem-se à educação, 2 variáveis relativas ao ambiente, 2 relativas ao comportamento cívico, 2 indicadores relativos à saúde, 1 refere-se à satisfação global com a vida, 2 variáveis referem-se à segurança e 2 ao equilíbrio entre a vida profissional e a vida pessoal. Uma análise descritiva das variáveis pode ser encontrada em (Fernandes & Pinho da Silva, 2016) Aplicação do algoritmo SOM Os mapas auto-organizados são uma rede neuronal bidimensional, que preserva as relações topológicas do espaço de entrada, i.e. proximidade na entrada implica proximidade no espaço de saída. A rede é constituída por duas camadas: na camada de entrada, cada unidade representa uma variável, e na camada de saída, cada neurónio representa um grupo de casos. O algoritmo SOM não fornece segmentos mas apenas micro-segmentos, que são caracterizados por cada uma das unidades de saída da rede. A implementação utilizada no SPSS Modeler 17 inicializa a rede com pesos aleatórios e, portanto, os resultados em experiências diferentes com os mesmos dados podem variar. No entanto, teoricamente, é possível inicializar o algoritmo de forma determinística, distribuindo uniformemente os pesos pela rede. A : o maior segmento tem 5 indivíduos (2 grupos) e o menor tem 1 indivíduo (3 grupos). Figura 1 e Figura 2 sumarizam os resultados da aplicação do algoritmo SOM e confirmam a fragmentação do agrupamento obtido, i.e. a obtenção de micro-segmentos: o maior segmento tem 5 indivíduos (2 grupos) e o menor tem 1 indivíduo (3 grupos). Página 2 de 4
Figura 1. Sumário do modelo e avaliação do (pseudo) agrupamento SOM. A medida de qualidade do agrupamento utilizada é uma aproximação ao critério silhueta (Kaufman & Rousseeuw, 1990). Figura 2. Rede resultante da aplicação do algoritmo SOM Mapas Auto-organizados. Página 3 de 4
Análise do agrupamento SOM com base no algoritmo hierárquico de Ward Para obter uma partição mais homogénea, os micro-segmentos obtidos pelo algoritmo SOM são caracterizados pelas suas médias em cada variável e agrupados pelo método de Ward. As Figura 3 Figura 5 apresentam os resultados deste processo. Da análise do dendograma e do gráfico d variação percentual da distância de ligação conclui-se a existência de 3 grupos. Figura 3. Dendograma resultante da aglomeração dos micro-segmentos SOM com o método de Ward. 28.03 Distância de ligação 18.63 13.82 10.39 8.04 6.09 4.96 3.96 3.07 2.19 1.31 0.79 0.31 0 2 4 6 8 10 12 14 Figura 4. Variação da distância de ligação dos agrupamentos com o método de Ward. Página 4 de 4
Variação percentual da distância de ligação 151% 50% 35% 33% 29% 32% 23% 25% 29% 40% 67% 66% 0 2 4 6 8 10 12 14 Figura 5. Variação percentual da distância de ligação da partição com o método de Ward. Na Figura 5 verifica-se que a variação percentual da distância de ligação estabiliza nos 3 segmentos, pelo que este é o número de grupos da partição. Este resultado é suportado pelo Dendograma, que mostra distâncias de ligação entre 5 e 10 para um agrupamento com 3 segmentos, a menor diferença que excluí grupos com apenas um elemento. Caracterização dos grupos A Tabela 1 mostra as 18 variáveis que têm uma associação forte ou muito forte com a agrupamento. Este resultado contrasta com a aplicação direta do algoritmo hierárquico de Ward, onde se verifica que apenas 7 variáveis comprem este requisito. A explicação reside na utilização da média dos micro-segmentos resultantes da aplicação das redes de SOM, que filtram os valores extremos, promovendo que um maior número de variáveis vão contribuir para o decréscimo da distância de ligação total. Measures of Association Eta HOU_Wbf_p_mean * Ward Method.891 HOU_rpp_r_mean * Ward Method.883 INC_Hni_mu_mean * Ward Method.919 INC_Hfw_mu_mean * Ward Method.821 JOB_Er_p_mean * Ward Method.741 JOB_Pe_mu_mean * Ward Method.956 COM_p_mean * Ward Method.742 EDU_Ski_s_mean * Ward Method.856 EDU_Yea_y_mean * Ward Method.775 ENV_Ap_m_mean * Ward Method.800 ENV_Wq_p_mean * Ward Method.910 CIV_Vote_p_mean * Ward Method.701 HEA_Le_y_mean * Ward Method.781 HEA_Srh_p_mean * Ward Method.786 LIF_Sat_as_mean * Ward Method.898 SAF_Ass_p_mean * Ward Method.849 SAF_Hom_r_mean * Ward Method.908 WLB_Hour_p_mean * Ward Method.890 Página 5 de 4
Tabela 1. Variáveis com associação forte ou muito forte com o agrupamento, de acordo com o critério Eta 0. 7. Dado o elevado número de variáveis cuja associação com o agrupamento é forte ou muito forte, optou-se por descrever os grupos com base nas variáveis cuja associação com o agrupamento é muito forte, de acordo com o critério Eta 0.9 (Laureano & Botelho, 2012). Estas variáveis encontram-se na Tabela 2. Measures of Association Eta INC_Hni_mu_mean * Ward Method.919 JOB_Pe_mu_mean * Ward Method.956 ENV_Wq_p_mean * Ward Method.910 SAF_Hom_r_mean * Ward Method.908 Tabela 2. Variáveis descritivas com associação muito forte com o agrupamento com 3 segmentos. A Tabela 3 caracteriza os grupos com base na média e no desvio padrão das variáveis dentro de cada segmento. O grupo 3 agrega os países com melhor nível de vida, enquanto que o grupo 1 agrega os países com valores mais baixos nos indicadores. O grupo 2 agrega os países com valores intermédios nos indicadores. Em contraste com a aplicação direta do método de Ward, o esquema estudado neste relatório, que consiste em realização uma micro-segmentação com o SOM e, posteriormente, agrupar com o método de Ward, permite definir claramente as fronteiras de separação entre os clusters. Ward Method INC_Hni_mu_mean JOB_Pe_mu_mean ENV_Wq_p_mean SAF_Hom_r_mean 1 Mean 15795.5000 20348.6667 66.3333 11.6000 Std. Deviation 3090.52121 4148.61913.81650 4.55605 2 Mean 19634.9167 27130.3333 79.0833 1.2333 Std. Deviation 2595.15988 4597.01430 5.02494.86533 3 Mean 29888.3333 47237.8889 90.5556.9722 Std. Deviation 2551.26762 2731.61851 4.32148.59366 Total Mean 24121.7222 36053.8333 82.6944 2.8306 Std. Deviation 6521.59896 12109.40400 9.96208 4.38246 Tabela 3. Caracterização dos grupos. Página 6 de 4
Referências Fernandes, E., & Pinho da Silva, N. (2016). Métodos de Segmentação - Relatório da Aplicação do Algoritmo Hierárquico de Ward. Kaufman, L., & Rousseeuw, P. J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis. New York: Wiley. Laureano, R., & Botelho, M. (2012). SPSS - O meu manual de consulta rápida (2ª ed.). Sílabo. Página 7 de 4