Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters
|
|
- Paula Escobar Amado
- 7 Há anos
- Visualizações:
Transcrição
1 Universidade Técnica de Lisboa INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO Informática e Sistemas de Informação Aplicados em Economia Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters
2 Descoberta de conhecimento em bases e dados. Pesquisa de Clusters - A análise de Clusters - Étapas da análise de Clusters - Métodos da análise de clusters - Medidas de distância e semelhança - Critérios para agregação e desagregação de casos Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 2
3 A Análise de Clusters Dado um conjunto de n indivíduos para os quais existe informação sobre a forma de p variáveis, o método de Análise de Clusters procede ao agrupamento dos indivíduos em função da informação existente, de tal modo que 1. os indivíduos pertencentes a um mesmo grupo sejam tão semelhantes quanto possível e 2. sempre mais semelhantes aos elementos do mesmo grupo do que a elementos dos restantes grupos. In: Estatística Multivariada Aplicada Elizabeth Reis Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 3
4 Etapas da análise de clusters - A selecção de indivíduos ou de uma amostra de indivíduos a serem agrupados; - A definição de variáveis a partir das quais será obtida a informação necessária ao agrupamento dos indivíduos; - A definição de uma medida de semelhança ou distância entre cada dois indivíduos; - A escolha de um critério de agregação ou desagregação dos indivíduos, isto é, a definição de um algoritmo de partição / classificação; - Por último, a validação dos resultados encontrados. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 4
5 A Selecção das Variáveis Tem de atender a um duplo problema: 1. Escolher de entre os dados disponíveis quais os mais significativos na abordagem do problema: conhecimento prévio do investigador sobre o assunto a estudar; 2. Atender ao tipo de variáveis utilizadas (contínuas, rácios, ordinais, nominais ou binárias), sobretudo quando estas estão definidas em diferentes unidades de medida. ESTANDARDIZAÇÃO prévia Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 5
6 Os Métodos de Análise de Clusters 1. Técnicas de optimização: definido um critério de agrupamento, a optimização indica qual deverá ser o grupo onde cada caso será incluído; pressupõe que os casos pertencem a um número k predeterminado de grupos; 2. Técnicas hierárquicas: que se podem subdividir em técnicas aglomerativas e divisivas, ambas partindo de uma matriz de semelhanças ou dissemelhanças (distâncias) entre os casos; estes métodos conduzem a uma hierarquia de partições P 1,P 2,...,P n do conjunto de n objectos em 1, 2,..., n grupos. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 6
7 Os Métodos de Análise de Clusters 3. Técnicas de densidade (density or mode-seeking): os grupos são formados através da procura de regiões que contenham uma concentração relativamente densa de casos. 4. Outras técnicas: que incluem aquelas em que se permite que haja sobreposição dos grupos (fuzzy clusters) e todas as restantes que não foram incluidas nas anteriores Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 7
8 Propriedades das Medidas de Semelhança / Distância 1. Simetria: dados dois objectos, x e y, a distância entre eles verifica a propriedade d(x,y) = d(y,x) > o 2. Desigualdade triangular: dados três objectos, x, y e z, as distâncias entre eles satisfazem a propriedade: d(x,y) < d(x,z) + d(z,y) 3. Diferenciabilidade de não idênticos: dados dois objectos, x e y d(x, y) 0 x y 4. Indiferenciabílidade de idênticos: dados dois objectos idênticos, x e x' d(x,x') = 0 Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 8
9 Classificação dos Índices de (Dis)Semelhança - Coeficientes de correlação - Medidas de distância - Coeficientes de associação - Medidas de semelhança probabilística. Todas estas medidas têm vantagens e desvantagens, mas os mais utilizados nas ciências sociais são os dois primeiros tipos. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 9
10 Medidas de distância (1) 1. Distância Euclideana: a distância entre dois casos (i e j) é a raiz quadrada do somatório dos quadrados das diferenças entre valores de i e j para todas as variaveis (v = 1 2,, p) 2. Quadrado da Distância Euclideana: a distância entre dois casos (i e j) é definida como o somatório dos quadrados das diferenças entre os valores de i e j para todas as variáveis (V = 1, 2,, p) p ( ) dij = Xiv Xjv v= 1 p 2 2 ( ) d ij = Xiv Xjv v= 1 Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 10 2
11 Medidas de distância (2) 3. Distância absoluta ou City - Block Metric: a distância entre dois elementos (í e j) é a soma dos valores absolutos das diferenças entre os valores das variáveis (v = 1, 2... p) para aqueles dois casos: p dij = Xiv Xjv v= 1 4. Distância de Minkowski: definida a partir da medida anterior, pode ser considerada como a generalização da distância Euclideana (as duas coincidem quando r=2): p dij = Xiv Xjv v = 1 Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 11 r 1 r
12 Medidas de distância (3) 5. Distância de Mahalanobis ou distância generalizada. Considera a matriz de covanância X para o cálculo das distâncias: onde Xi e Xj são os vectores de valores das variáveis para os indivíduos i e j. 6. Distância de Chebishev: a distância entre dois casos i e j é o valor máximo para todas as variáveis, das diferenças entre esses dois indivíduos. Dij=(Xi - Xj)' Σ -1 (Xi - Xj) Dij = max Xiv - Xjv v Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 12
13 Coeficientes de Associação (1) Particularmente úteis para definir a semelhança entre indivíduos caracterizados por variáveis qualitativas de tipo booleano: 0 - ausência da característica para determinado indivíduo e 1 - presença da característica. Mais de trinta coeficientes de associação foram já propostos. Alguns deles merecem tratamento particular: - os coeficientes de emparelhamento simples, - os coeficientes de Jaccard e de Gower, - e o coeficiente de correlação para variáveis binárias. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 13
14 Coeficientes de Associação (2) Considerem-se os indivíduos i e j caracterizados por p variáveis binárias e construa-se uma tabela de contingência do seguinte modo: INDIVÍDUO I Totais a b a+b INDIVÍDUO J 0 c d c+d Totais a + c b + d p = a + b + c + d Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 14
15 Coeficientes de Associação (2) "a" número de características que assumem o valor 1 em ambos os indivíduos, "b" o número de características com valor 1 no indivíduo j e 0 no indivíduo i, "c" o número de características presentes em i mas ausentes em j, e "d" as características simultaneamente ausentes em i e j. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 15
16 Coeficientes de Emparelhamento Simples Sij = ( a + d) ( a + b + c + d) Dij = ( a ( b + c) + b + c + d) - Sij é a relação entre o número de características presentes e ausentes simultaneamente para os dois individuos e o número total de características, varia entre 0 e 1 e mede a semelhança entre cada dois indivíduos; - Dij é o quociente entre o número de características presentes num dos indivíduos e ausentes no outro e o número total de características, varia entre 0 e 1 e mede a distância entre dois indivíduos. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 16
17 Coeficientes de Jaccard sij = a a + b + c ou dij = b + c a + b + c evitam a contribuição da ausência conjunta de uma característica para o cálculo da semelhança ou distância entre dois individuos. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 17
18 Coeficientes Johnson e Wichern COEFICIENTE JUSTIFICAÇÃO 1) 2(a+d) / (2(a+d)+b+c) Peso duplo às presenças e ausências simultâneas. 2) (a+d) / (a+d + 2(b+c)) Peso duplo às situações discordantes, inclusão das ausências simultãneas 3) 2a / (2a + b + c) Peso duplo às presenças simultâneas, exclusão das ausências simultâneas. 4) a / (a + 2 (b + c) Peso duplo às situações discordantes, exclusão das ausências simultâneas 5) a / (b + c) Quociente entre pesenças simultâneas e situações discordantes, exclusão das ausências simultâneas Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 18
19 O coeficiente de Gower p p sij = / v= 1 sijv v= 1 wijv s ijv é o valor da semelhança entre os indivíduos i e j para a variável v e W ijv é a ponderação a afectar à variável v e que será: - 1 se a comparação para a variável v for considerada válida; - 0 se a comparação não for considerada válida, por exemplo, quando pelo menos um dos indivíduos apresenta uma nãoresposta para a variável em causa. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 19
20 Agregação e Desagregação dos Casos (1) Os vários métodos pretendem responder, de forma diferente, às seguintes questões: - distância entre indivíduos do mesmo grupo e distância entre indivíduos de grupos diferentes; - dispersão dos indivíduos dentro do grupo; - densidade dos indivíduos dentro e fora dos grupos. Diferem no modo como estimam distâncias entre grupos já formados e outros grupos ou indivíduos por agrupar. O processo de agrupamento de indivíduos já agrupados depende da distância entre os grupos. Portanto, diferentes definições destas distâncias poderão resultar em diferentes soluções finais. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 20
21 Agregação e Desagregação dos Casos (2) Não existe aquilo a que se possa chamar o melhor critério de (des)agregação dos casos em análise de clusters. É prática comum utilizar vários critérios e fazer a comparação dos resultados. Se estes forem semelhantes, é possível concluir que se obtiveram resultados com elevado grau de estabilidade e, portanto, fiáveis. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 21
22 Agregação e Desagregação dos Casos (3) Os critérios de agregação mais utilizados são os seguintes: 1. Single linkage ou critério do vizinho mais próximo 2. Complete linkage ou critério do vizinho mais afastado 3. Critério da média dos grupos 4. Critério do centróide 5. Critério de Ward Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 22
23 Single Linkage ou Critério do Vizinho mais Próximo A semelhança entre dois grupos corresponde à semelhança máxima entre dois casos quaisquer pertencentes a esses grupos, ou dito de outro modo, DOIS GRUPOS SÃO REAGRUPADOS NUM SÓ DE ACORDO COM A DISTÂNCIA ENTRE OS SEUS CASOS MAIS PRÓXIMOS Dados dois grupos (i, j) e (k), a distância entre os dois é a menor das distâncias entre os elementos dos dois grupos: d(i,j)k = min { d ik ; d jk } Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 23
24 Complete Linkage ou Critério do Vizinho mais Afastado A distância entre dois grupos é agora definida como sendo a distância entre os seus elementos mais afastados ou menos semelhantes. Dados dois grupos (i, j) e (k), a distância entre eles é a maior das distâncias entre os seus elementos: d(i,i)k = max (dik; djk) O conjunto de elementos em cada grupo é mais semelhante a todos os restantes elementos do grupo do que a qualquer dos elementos dos restantes grupos. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 24
25 Critério da Média dos Grupos Esta estratégia de agrupamento define a distância entre dois grupos, i e j, como sendo a média das distâncias entre todos os pares de indivíduos constituídos por elementos dos dois grupos. Vantagem: evitar valores extremos e tomar em consideração toda a informação dos grupos. Um grupo passa a ser definido como um conjunto de indivíduos no qual cada um tem mais semelhanças, em média, com todos os membros do mesmo grupo do que com todos os elementos de qualquer outro grupo. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 25
26 Critério do Centróide A distância entre dois grupos e definida como a distância entre os seus centróides, pontos definidos pelas médias das variáveis caracterizadoras dos indivíduos de cada grupo, isto é, o método do centróide calcula a distância entre dois grupos como a diferença entre as suas médias, para todas as variáveis. Uma desvantagem deste método é que se os dois grupos forem muito diferentes em termos de dimensão, o centróide do novo agrupamento estará mas próximo daquele que for maior e as características do grupo menor tenderão a perder-se. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 26
27 Critério de Ward Baseia-se na perda de informação resultante do agrupamento dos indivíduos e medida através da soma dos quadrado dos desvios das observações individuais relativamente às médias do grupos em que são classificadas. Etapas: - calcular as médias das variáveis para cada grupo; - calcular o quadrado da distância Euclideana entre essas médias e os valores das variáveis para cada indivíduo; - somar as distâncias para todos os indivíduos; - optimizar a variância mínima dentro dos grupos. Descoberta de conhecimentos em bases de dados. Pesquisa de Clusters 27
Descrição do Método de Análise de Clusters
ANÁLISE DE CLUSTERS A análise de Clusters designa uma série de procedimentos estatísticos sofisticados que podem ser usados para classificar objectos e pessoas por observação das semelhanças e dissemelhanças
Leia maisAnálise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda
Leia maisMÉTODOS MULTIVARIADOS. Rodrigo A. Scarpel
MÉTODOS MULTIVARIADOS Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo INTRODUÇÃO Semana Conteúdo Introdução aos métodos multivariados 1 Análise de componentes principais 2 Aplicações de análise
Leia maisAnálise de Agrupamento. Cluster Analysis
Análise de Agrupamento Cluster Analysis Objetivo Classificar objetos, itens ou indivíduos de acordo com as suas semelhanças. Os objetos semelhantes são alocados em um mesmo grupo e, portanto, aqueles que
Leia maisMANUAL DE REFERÊNCIA DE ANÁLISE DE CONGLOMERADOS
MANUAL DE REFERÊNCIA DE ANÁLISE DE CONGLOMERADOS INTRODUÇÃO... 2 MEDIDAS DE SIMILARIDADE [2,3]... 3 2. MEDIDAS DE CORRELAÇÃO... 4 2.2 MEDIDAS DE DISTÂNCIA... 6 2.2. TIPOS DE MEDIDAS DE DISTÂNCIA... 7 2.3
Leia maisAnálise de dados multivariados I
Análise de dados multivariados I Tópico: Análise de Conglomerados ou Agrupamentos (ou ainda, Cluster Analysis) Bibliografia: R.A. Johnson, Applied Multivariate Statistical Analysis, Prentice Hall, 199
Leia maisANÁLISE DE AGRUPAMENTOS
ANÁLISE DE AGRUPAMENTOS Análise de Agrupamentos 2 Definição Consistem em encontrar grupos de objetos entre os objetos Categorizá-los ou agrupá-los Tipo de aprendizado não supervisionado Encontrar grupos
Leia maisSENSOMETRIA. Adilson dos Anjos. Curitiba, PR 21 de maio de Departamento de Estatística Universidade Federal do Paraná
SENSOMETRIA Adilson dos Anjos Departamento de Estatística Universidade Federal do Paraná aanjos@ufpr.br Curitiba, PR 21 de maio de 2015 1 / 7 SENSOMETRIA SEGMENTAÇÃO 2 / 7 Introdução Análise de agrupamentos->
Leia maisLes-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO. Junho de 2017
Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO AULA 4 02/06/17 Prof a Lilian M. Lima Cunha Junho de 2017 DEFINIÇÃO Análise de conglomerados (Cluster Analysis) é uma das técnicas de análise multivariada
Leia mais2 Processo de Agrupamentos
20 2 Processo de Agrupamentos A análise de agrupamentos pode ser definida como o processo de determinação de k grupos em um conjunto de dados. Para entender o que isso significa, observe-se a Figura. Y
Leia maisAula 7 Medidas de Distância. Profa. Elaine Faria UFU
Aula 7 Medidas de Distância Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof Andre C. P. L. F. Carvalho Agradecimentos Ao professor André
Leia maisMétodos Quantitativos II
Métodos Quantitativos II MEDIDAS DE VARIABILIDADE O que significa Variabilidade? As medidas de tendência central nos dão uma ideia da concentração dos dados em torno de um valor. Entretanto, é preciso
Leia maisAnálise de Agrupamento (Cluster analysis)
Análise de Agrupamento (Cluster analysis) Anderson Rodrigo da Silva 1 Exemplos de aplicações de análise de agrupamento Pesquisas de mercado Agrupamento de cidades-teste Bancos de germoplasma Caracterização
Leia maisUniversidade de São Paulo Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Conceitos básicos Classificação não-supervisionada:
Leia maisClustering: k-means e Agglomerative
Tópicos Avançados em Avaliação de Desempenho de Sistemas Jackson Nunes Marco Eugênio Araújo Outubro de 2014 1 Sumário Contextualização Classificação Agrupamento (Clustering) Cenários de Aplicação Clustering
Leia maisTrilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos
Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos Marco Siqueira Campos Sócio fundador Siqueira Campos Associados e sos-stat Estatístico UFRGS Certificado Data Science Specialization
Leia maisAPLICAÇÃO DE ANÁLISE DE CLUSTER EM VALORES NUTRICIONAIS REFERENTES Á TIPOS DE CARNES
APLICAÇÃO DE ANÁLISE DE CLUSTER EM VALORES NUTRICIONAIS REFERENTES Á TIPOS DE CARNES Samara Rilda de S.BEZERRA 1, Edwirde Luiz SILVA 1,Aldreany P.Araújo SILVA 1 1 Departamento de Estatística, Universidade
Leia maisAnálise Discriminante
Universidade Técnica de Lisboa INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO Informática e Sistemas de Informação Aplicados em Economia Análise Discriminante Análise Discriminante 1 Análise discriminante - A
Leia maisAprendizado de Máquina
Aprendizado de Máquina André C. P. L. F. de Carvalho Posdoutorando: Isvani Frias-Blanco ICMC-USP Agrupamento de dados Tópicos Agrupamento de dados Dificuldades em agrupamento Algoritmos de agrupamento
Leia maisAprendizagem de Dados Simbólicos e/ou Numéricos
Aprendizagem de Dados Simbólicos e/ou Numéricos Francisco de A.T. de Carvalo Francisco de A.T. de Carvalo, Agrupamento (Clustering Métodos usados para a construção de grupos de objetos com base nas semelanças
Leia maisSEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos
Departamento de Engenharia Elétrica - EESC-USP SEL-0339 Introdução à Visão Computacional Aula 7 Reconhecimento de Objetos Prof. Dr. Marcelo Andrade da Costa Vieira Prof. Dr. Adilson Gonzaga mvieira@sc.usp.br
Leia maisPROBABILIDADE E DISTÂNCIAS
PROBABILIDADE E DISTÂNCIAS Definições Básicas Variável aleatória 2 Em Estatística, é muito comum ver o termo variável aleatória. Mas qual o seu significado? Existem várias definições para o termo variável
Leia maisMineração de Dados em Biologia Molecular
Mineração de Dados em Biologia Molecular André C. P. L. F. de Carvalho Monitor: Valéria Carvalho Agrupamento de Dados Tópicos Agrupamento de dados Análise de cluster Dificuldades em agrupamento Algoritmos
Leia maisUniversidade de Aveiro
Universidade de Aveiro 17 Departamento de Matemática António da Costa Fernandes Análise de conglomerados: comparação de técnicas e uma aplicação a dados de fluxo migratório em Portugal Universidade de
Leia maisAula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga
Aula 8 - Reconhecimento e Interpretação Prof. Adilson Gonzaga Elementos de Visão Computacional: Visão Computacional Processamento de Baio Nível Processamento de Nível Intermediário Processamento de Alto
Leia maisESTATÍSTICA. Estatística é o conjunto de métodos para a obtenção, organização, resumo, análise e interpretação dos dados.
ESTATÍSTICA Termo vem de status Aspectos de um país (tamanho da população, taxas de mortalidade, taxas de desemprego, renda per capita). Estatística é o conjunto de métodos para a obtenção, organização,
Leia maisAgrupamento de Dados. (Clustering)
Agrupamento de Dados (Clustering) Organização 1. Introdução 2. Medidas de (Dis)similaridade 3. Métodos de Agrupamento (métodos hierárquicos, de partição) 4. Critérios numéricos para definir o número de
Leia maisINF 1771 Inteligência Artificial
Edirlei Soares de Lima INF 1771 Inteligência Artificial Aula 18 Aprendizado Não-Supervisionado Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest Neighbor
Leia maisRevisões de Matemática e Estatística
Revisões de Matemática e Estatística Joaquim J.S. Ramalho Contents 1 Operadores matemáticos 2 1.1 Somatório........................................ 2 1.2 Duplo somatório....................................
Leia maisMedidas de Dispersão. Introdução Amplitude Variância Desvio Padrão Coeficiente de Variação
Medidas de Dispersão Introdução Amplitude Variância Desvio Padrão Coeficiente de Variação Introdução Estudo de medidas que mostram a dispersão dos dados em torno da tendência central Analisaremos as seguintes
Leia maisANÁLISE DE CLUSTER APLICADA À LOGÍSTICA: DEFINIÇÃO DE ZONAS DE TRANSPORTE PARA UMA EMPRESA DO SETOR SIDERÚRGICO
ANÁLISE DE CLUSTER APLICADA À LOGÍSTICA: DEFINIÇÃO DE ZONAS DE TRANSPORTE PARA UMA EMPRESA DO SETOR SIDERÚRGICO Alvaro Simões da Conceição Neto (UFMG) alvaro.neto@terra.com.br Juliana Jacob Ferreira (UFMG)
Leia maisEstatística: Aplicação ao Sensoriamento Remoto SER ANO Análise de Agrupamento
statística: plicação ao Sensoriamento Remoto SR 204 - NO 2017 nálise de grupamento amilo aleles Rennó camilo@dpi.inpe.br http://www.dpi.inpe.br/~camilo/estatistica/ nálise de grupamento (luster nalysis)
Leia maisInteligência nos Negócios (Business Inteligente)
Inteligência nos Negócios (Business Inteligente) Sistemas de Informação Sistemas de Apoio a Decisão Aran Bey Tcholakian Morales, Dr. Eng. (Apostila 7) Fundamentação da disciplina Analise de dados Decisões
Leia maisCap. 6 Medidas descritivas
Estatística Aplicada às Ciências Sociais Sexta Edição Pedro Alberto Barbetta Florianópolis: Editora da UFSC, 2006 Cap. 6 Medidas descritivas Análise descritiva e exploratória de variáveis quantitativas
Leia maisRedes Neurais (Inteligência Artificial)
Redes Neurais (Inteligência Artificial) Aula 16 Aprendizado Não-Supervisionado Edirlei Soares de Lima Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest
Leia maisAgrupamento Espectral e Hierárquico
Agrupamento Espectral e Hierárquico Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Agrupamento Espectral 2. Agrupamento Hierárquico 1 Agrupamento Espectral Agrupamento Espectral Nem
Leia maisEstatística Aplicada
Estatística Aplicada Medidas Descritivas Professor Lucas Schmidt www.acasadoconcurseiro.com.br Estatística Aplicada ESTATÍSTICA DESCRITIVA Classificação de variáveis QuaLitativas (categóricas) Descrevem
Leia maisMedidas Estatísticas NILO FERNANDES VARELA
Medidas Estatísticas NILO FERNANDES VARELA Tendência Central Medidas que orientam quanto aos valores centrais. Representam os fenômenos pelos seus valores médios, em torno dos quais tendem a se concentrar
Leia maisÍNDICE Janelas Menus Barras de ferramentas Barra de estado Caixas de diálogo
XXXXXXXX ÍNDICE INTRODUÇÃO 15 1. VISÃO GERAL DO SPSS PARA WINDOWS 17 1.1. Janelas 17 1.2. Menus 20 1.3. Barras de ferramentas 21 1.4. Barra de estado 21 1.5. Caixas de diálogo 22 2. OPERAÇÕES BÁSICAS 23
Leia maisAprendizado de Máquinas. Introdução à Aprendizado Não- Supervisionado
Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Aprendizado de Máquinas Introdução à Aprendizado Não- Supervisionado David Menotti, Ph.D. http://web.inf.ufpr.br/menotti Objetivos
Leia maisANÁLISE DE AGRUPAMENTO APLICADA AO CRESCIMENTO POPULACIONAL DE ALGUNS PAÍSES EUROPEUS
ANÁLISE DE AGRUPAMENTO APLICADA AO CRESCIMENTO POPULACIONAL DE ALGUNS PAÍSES EUROPEUS Edwirde Luiz SILVA 1, Dalila Camêlo AGUIAR 2 1 Departamento de Estatística, Universidade Estadual da Paraíba - UEPB,
Leia maisPESQUISA EM MERCADO DE CAPITAIS. Prof. Patricia Maria Bortolon, D. Sc.
PESQUISA EM MERCADO DE CAPITAIS Prof. Patricia Maria Bortolon, D. Sc. Cap. 4 Características do Conjunto de Oportunidades em Condições de Risco ELTO, E.; GRUBER, M.; BROW, S., GOETZMA, W. Moderna Teoria
Leia maisPRÁTICA 8. A Distância Euclidiana entre dois vetores n-dimensionais x e y é definida como o escalar: d = norm(x y)
PRÁTICA 8 1) Medidas de Distância. A Distância Euclidiana entre dois vetores n-dimensionais e y é definida como o escalar: d 1 2 2 [( y ) + + ( y ) ] 2 e (, y) = y = y = 1 1 L n n esta epressão é a Norma
Leia maisUniversidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Tipos de Aprendizagem. Luiz Eduardo S. Oliveira, Ph.D.
Universidade Federal do Paraná Departamento de Informática Reconhecimento de Padrões Tipos de Aprendizagem Luiz Eduardo S. Oliveira, Ph.D. http://lesoliveira.net Objetivos Introduzir diferentes tipos de
Leia maisCC-226 Introdução à Análise de Padrões
CC-226 Introdução à Análise de Padrões Probabilidades e Estatísticas Descritivas Carlos Henrique Q. Forster 1 1 Divisão de Ciência da Computação Instituto Tecnológico de Aeronáutica 3 de março de 2008
Leia maisMedidas de Dispersão para uma Amostra. Conteúdo: AMPLITUDE VARIÂNCIA DESVIO PADRÃO COEFICIENTE DE VARIAÇÃO
Medidas de Dispersão para uma Amostra Conteúdo: AMPLITUDE VARIÂNCIA DESVIO PADRÃO COEFICIENTE DE VARIAÇÃO Medidas de Dispersão para uma Amostra Para entender o que é dispersão, imagine que quatro alunos
Leia maisExtracção de Conhecimento de Dados obtidos por Simulação da Desnaturação Proteica
Extracção de Conhecimento de Dados obtidos por Simulação da Desnaturação Proteica por Elisabeth Silva Fernandes Dissertação de Mestrado em Análise de Dados e Sistemas de Apoio à Decisão Orientador: Professor
Leia maisComparação entre o método Ward e o método K-médias no agrupamento de produtores de leite
Comparação entre o método Ward e o método K-médias no agrupamento de produtores de leite Enio Júnior Seidel,Fernando de Jesus Moreira Júnior, Angela Pelegrin Ansuj, Maria Rosane Coradini Noal Departamento
Leia maisConsultas por Similaridade em Domínios de Dados Complexos
Consultas por Similaridade em Domínios de Dados Complexos Guilherme Felipe Zabot Orientador: Profº Dr Caetano Traina Jr Roteiro Objetivo Introdução Dados Complexos Representação de Dados Complexos Extração
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos
Leia maisAnálise de dados: clustering e redução de dimensionalidade
Análise de dados: clustering e redução de dimensionalidade Métodos e sua implementação em R Clustering - definições Objectivo genérico: agrupar objetos / entidades / exemplos (linhas da tabela) com base
Leia maisIntrodução às Redes Neurais Artificiais
Introdução às Redes Neurais Artificiais Clusterização: Conceitos Básicos Prof. João Marcos Meirelles da Silva www.professores.uff.br/jmarcos Departamento de Engenharia de Telecomunicações Escola de Engenharia
Leia maisAnálise de Clusters. Aplicações da formação de Grupos (Clustering)
Análise de Clusters Aplicações da formação de Grupos (Clustering) Ver e analisar vastas quantidades de dados biológicos como um todo pode ser difícil É mais fácil interpretar os dados se forem divididos
Leia maisREVISITANDO CONJUNTOS E DISTÂNCIAS PARA ENCONTRAR PONTOS VIZINHOS
REVISITANDO CONJUNTOS E DISTÂNCIAS PARA ENCONTRAR PONTOS VIZINHOS Eduardo Braun - eduardotbraun@gmail.com Universidade Federal de Santa Maria, Campus Camobi, 97105-900 - Santa Maria, RS, Brasil Alice de
Leia maisEstatística Descritiva
C E N T R O D E M A T E M Á T I C A, C O M P U T A Ç Ã O E C O G N I Ç Ã O UFABC Estatística Descritiva Centro de Matemática, Computação e Cognição March 17, 2013 Slide 1/52 1 Definições Básicas Estatística
Leia maisInteligência nos Negócios (Business Inteligente)
Inteligência nos Negócios (Business Inteligente) Sistemas de Informação Sistemas de Apoio a Decisão Aran Bey Tcholakian Morales, Dr. Eng. (Apostila 7) Fundamentação da disciplina Analise de dados Decisões
Leia maisANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA
CURTA DURAÇÃO ANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA CARGA HORÁRIA: 80 horas COORDENAÇÃO: Prof.ª Dr.ª Alessandra de Ávila Montini OBJETIVOS Introduzir o conceito de Big Data,
Leia maisSumário. RObust Clustering using links ROCK. Thiago F. Covões. Motivação. Motivação. Links. Market basket analys. Motivação
Sumário RObust Clustering using links ROCK Thiago F. Covões Motivação Links Função de qualidade Algoritmo Vantagens/Desvantagens SCC5895Análise de Agrupamento de Dados 1 2 Motivação Atributos categóricos/nominais/discretos
Leia maisA procura da melhor partição em Classificação Hierárquica: A abordagem SEP/COP
A procura da melhor partição em Classificação Hierárquica: A abordagem SEP/COP Lúcia Sousa Escola Superior de Tecnologia e Gestão, Instituto Politécnico de Viseu Fernanda Sousa Faculdade de Engenharia
Leia maisCARTOGRAFIA TEMÁTICA. Prof. Luciene S. Delazari Departamento de Geomática Curso de Engenharia Cartográfica e de Agrimensura
CARTOGRAFIA TEMÁTICA Prof. Luciene S. Delazari Departamento de Geomática Curso de Engenharia Cartográfica e de Agrimensura - 2019 Classificação de dados Desvio Padrão Considera como os dados estão distribuídos
Leia maisMineração de Dados em Biologia Molecular
Mineração de Dados em Biologia Molecular Principais tópicos André C. P. L. F. de Carvalho Monitor: Valéria Carvalho Métodos baseados em distância Aprendizado baseado em instâncias Conceitos básicos KNN
Leia maisSCC0173 Mineração de Dados Biológicos
SCC0173 Mineração de Dados Biológicos Preparação de Dados: Parte B Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões: dos originais gentilmente
Leia maisProjeções Multi-dimensionais
Prof. Fernando V. Paulovich http://www.icmc.usp.br/~paulovic paulovic@icmc.usp.br Instituto de Ciências Matemáticas e de Computação (ICMC) Universidade de São Paulo (USP) 23 de setembro de 2010 Introdução
Leia maisEstatística Aplicada ao Serviço Social AULA 06. Estatística Descritiva - Medidas de dispersão. Universidade Federal da Paraíba
Universidade Federal da Paraíba Curso de Serviço Social - Turma 01 Estatística Aplicada ao Serviço Social Prof. Hemílio Fernandes Campos Coêlho Departamento de Estatística Universidade Federal da Paraíba
Leia maisMódulo 18- Análise de Cluster Tutorial SPSS Preparação dos Dados e Geração de Tabelas Método Hierárquico e Não-Hierárquico
Tutorial SPSS Módulo 18 Análise de Cluster 1 Módulo 18- Análise de Cluster Tutorial SPSS Preparação dos Dados e Geração de Tabelas Método Hierárquico e Não-Hierárquico Situação Problema Uma varejista de
Leia maisI VOLUME. O. INTRODUÇÃO Destinatários desta obra. Objectivos. Concepção Agradecimentos. Exemplos gerais. Advertência.. I.
índice GERAL I VOLUME Prefácio do Autor à Edição Portuguesa. Introdução à Edição Portuguesa. IX XI O. INTRODUÇÃO Destinatários desta obra. Objectivos. Concepção Agradecimentos. Exemplos gerais. Advertência..
Leia mais3 Método Pesquisa de Orçamentos Familiares (POF)
26 3 Método Este estudo se caracteriza como sendo de natureza descritiva, baseado em dados secundários, provenientes das duas últimas edições da Pesquisa de Orçamentos Familiares do IBGE, realizadas nos
Leia maisCapítulo 1 Estatística Descritiva. Prof. Fabrício Maciel Gomes
Capítulo 1 Estatística Descritiva Prof. Fabrício Maciel Gomes Gráficos 1. Gráfico de Colunas Um gráfico de colunas mostra as alterações de dados em um período de tempo ou ilustra comparações entre itens.
Leia maisEstatística. 1 Medidas de Tendência Central 2 Medidas de Posição 3 Medidas de Dispersão. Renata Souza
Estatística 1 Medidas de Tendência Central 2 Medidas de Posição 3 Medidas de Dispersão Renata Souza Medidas Depois que você conheceu os conceitos de coleta de dados, variação, causas comuns e causas especiais,
Leia maisUnidade III Medidas Descritivas
Unidade III Medidas Descritivas Autor: Anderson Garcia Silveira Anderson Garcia Silveira Na aula anterior... Medidas de Tendência Central 2 Na aula anterior... Medidas de Tendência Central Moda Mediana
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Aprendizagem Não Supervisionada Alessandro L. Koerich Mestrado/Doutorado em Informática (PPGIa) Pontifícia Universidade Católica do Paraná (PUCPR) Mestrado/Doutorado em Informática
Leia mais1 Medidas de dispersão
1 Medidas de dispersão As medidas de posição são importantes para caracterizar um conjunto de dados, mas não são suficientes para caracterizar completamente a distribuição dos dados. Para isso é necessário
Leia maisSensometria, Segmentação. Adilson dos Anjos
Segmentação Adilson dos Anjos Segmentação Objetivo O objetivo dessa aula é apresentar alguns métodos de Segmentação. As análises serão realizadas com uso do R; Pacotes utilizados nessa aula FactoMineR
Leia maisIndicador da Promoção do Sucesso Escolar
. Indicador da Promoção do Sucesso Escolar Nota Técnica 2. o Ciclo Direção-Geral de Estatísticas da Educação e Ciência, setembro de 2015 1 1. Legenda do gráfico Ponto 1.1 - Para cada ano, o gráfico do
Leia maisUma Extensão Intervalar do Algoritmo Fuzzy C-Means
Uma Extensão Intervalar do Algoritmo Fuzzy C-Means Rogério R. de Vargas e Benjamín R. C. Bedregal CNMAC 2009 Cuiabá-MT, Setembro de 2009 Vargas e Bedregal PPgSC/ Universidade Federal do Rio Grande do Norte
Leia maisSegmentação local. geralmente baseados em análise de descontinuidade ou similaridade de valores digitais.
Segmentação Segmentação local 2 Segmentação local geralmente baseados em análise de descontinuidade ou similaridade de valores digitais. descontinuidade : a abordagem é dividir a imagem baseando-se em
Leia maisRalph S. Silva
ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S. Silva http://www.im.ufrj.br/ralph/multivariada.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Agradecimentos
Leia maisCAPÍTULO 5: VARIÁVEIS ALEATÓRIAS BIDIMENSIONAIS Todas as coisas aparecem e desaparecem por causa da concorrência de causas e condições. Nada nunca existe inteiramente só, tudo está em relação com todo
Leia maisMAIS SOBRE MEDIDAS RESUMO. * é muito influenciada por valor atípico
MAIS SOBRE MEDIDAS RESUMO Medidas de Tendência Central (1) média (aritmética) * só para variáveis quantitativas exceção: variável qualitativa nominal dicotômica, com categorias codificadas em 0 e 1; neste
Leia maisMEDIDAS DE SIMILARIDADE UTILIZANDO CARACTERÍSTICAS DA ÁGUA DO MUNICÍPIO DE BOTUCATU
MEDIDAS DE SIMILARIDADE UTILIZANDO CARACTERÍSTICAS DA ÁGUA DO MUNICÍPIO DE BOTUCATU Lívia Paschoalino de Campos 1,Farid Sallum Neto 2, Lilian Cristina Trevizan Felipe 3 Carlos Roberto Padovani 4 1 Mestra
Leia maisVARIEDADES DE SOBREMESAS DO MCDONALDS SEGUNDO SUAS CARACTERÍSTICAS NUTRICIONAIS: UMA APLICAÇÃO DE ANÁLISE DE AGRUPAMENTO
VARIEDADES DE SOBREMESAS DO MCDONALDS SEGUNDO SUAS CARACTERÍSTICAS NUTRICIONAIS: UMA APLICAÇÃO DE ANÁLISE DE AGRUPAMENTO Luana Kelly de Souza Nóbrega 1 Dalila Camêlo Aguiar 2 Jaylanne Medeiros de Mendonça
Leia mais3 3. Variáveis Aleatórias
ÍNDICE 3. VARIÁVEIS ALEATÓRIAS...49 3.. VARIÁVEIS ALEATÓRIAS UNIDIMENSIONAIS...49 3.2. VARIÁVEIS DISCRETAS FUNÇÃO DE PROBABILIDADE E FUNÇÃO DISTRIBUIÇÃO DE PROBABILIDADE...50 3.2.. Função de probabilidade...50
Leia maisGRÁFICOS ESTATÍSTICOS
GRÁFICOS ESTATÍSTICOS DISTRIBUIÇÃO DE FREQÜÊNCIA Suponhamos termos feito uma coleta de dados relativos às estaturas de quarenta alunos, que compõem uma amostra dos alunos de um colégio A, resultando a
Leia maisIntrodução à Estatística Estatística Descritiva 22
Introdução à Estatística Estatística Descritiva 22 As tabelas de frequências e os gráficos constituem processos de redução de dados, no entanto, é possível resumir de uma forma mais drástica esses dados
Leia mais12/06/14. Estatística Descritiva. Estatística Descritiva. Medidas de tendência central. Medidas de dispersão. Separatrizes. Resumindo numericamente
Resumindo numericamente Para resumir numericamente dados quantitativos o objetivo é escolher medidas apropriadas de locação (``qual o tamanho dos números envolvidos?'') e de dispersão (``quanta variação
Leia maisOrganização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters
Organização. Introdução 2. Medidas de Similaridade 3. Métodos de Agrupamento (métodos hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters Métodos de Partição Cada exemplo
Leia maisA análise de aglomerados
Mais importante do que saber fazer é saber o por quê (Norbert Wiener (1894 1964). Prof. Lorí Viali, Dr. viali@pucrs.br; viali@mat.ufrgs.br; http://www.pucrs.br/famat/viali; http://www.mat.ufrgs.br/~viali/
Leia mais2COP229 Inteligência Computacional. Aula 3. Clusterização.
Aula 3 Clusterização Sumário (Clusterização) - Introdução - Aprendizado Não Supervisionado - Aprendizado Supervisionado - Introdução: Clusterização - Etapas para o processo de Clusterização - Distância
Leia maisMétodos Quantitativos
Métodos Quantitativos Unidade 2 Estatística descritiva 1 SUMÁRIO SEÇÃO SLIDES 2.1 Amostragem... 03 11 2.2 Tabelas e gráficos... 12 19 2.3 Medidas de posição... 20 24 2.4 Medidas de dispersão... 25 30 Observação:
Leia maisStela Adami Vayego DEST/UFPR
Resumo 5 - Análise Bivariada (Bidimensional) 5.1. Introdução O principal objetivo das análises nessa situação é explorar relações (similaridades) entre duas variáveis. A distribuição conjunta das freqüências
Leia mais1 Introdução à Combinatória Enumerativa: O Princípio de Inclusão-Exclusão
1 Introdução à Combinatória Enumerativa: O Princípio de Inclusão-Exclusão Dados conuntos finitos X, Y tem-se X Y = X + Y X Y Do mesmo modo X Y Z = X + Y + Z X Y X Z Y Z + X Y Z uma vez que os elementos
Leia maisANÁLISE DE CORRESPONDÊNCIAS (ASSOCIAÇÕES)
ANÁLISE DE CORRESPONDÊNCIAS (ASSOCIAÇÕES) A análise de componentes principais ou análise fatorial exigem dados mensurados em escala numérica contínua e não é apropriada para dados nominais, tais como contagem
Leia maisCONCEITOS BASICOS, ORGANIZAÇÃO E APRESENTAÇÃO DOS RESULTADOS, DISTRIBUIÇÃO DE FREQUÊNCIA
DISCIPLINA: MÉTODOS QUANTITATIVOS PROFESSORA: GARDÊNIA SILVANA DE OLIVEIRA RODRIGUES CONCEITOS BASICOS, ORGANIZAÇÃO E APRESENTAÇÃO DOS RESULTADOS, DISTRIBUIÇÃO DE FREQUÊNCIA MOSSORÓ/RN 2015 1 POR QUE ESTUDAR
Leia maisUNIVERSIDADE FEDERAL DA PARAÍBA MEDIDAS DESCRITIVAS
UNIVERSIDADE FEDERAL DA PARAÍBA MEDIDAS DESCRITIVAS Departamento de Estatística Tarciana Liberal MEDIDAS DE DISPERSÃO As medidas de posição apresentadas fornecem a informação dos dados apenas a nível pontual,
Leia maisMetodologia Aplicada a Computação.
Metodologia Aplicada a Computação gaudenciothais@gmail.com Pré-processamento de dados Técnicas utilizadas para melhorar a qualidade dos dados; Eliminam ou minimizam os problemas como ruídos, valores incorretos,
Leia maisMedidas Descritivas de Posição, Tendência Central e Variabilidade
Medidas Descritivas de Posição, Tendência Central e Variabilidade Prof. Gilberto Rodrigues Liska UNIPAMPA 27 de Março de 2017 Material de Apoio e-mail: gilbertoliska@unipampa.edu.br Sumário 1 Introdução
Leia maisAula 05. Análise Bidimensional. Stela Adami Vayego - DEST/UFPR 1
Aula 05 Análise Bidimensional Stela Adami Vayego - DEST/UFPR 1 Objetivo Explorar relações (similaridades) entre duas variáveis São 3 situações: (1) as duas variáveis são quantitativas; (2) as duas variáveis
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Aprendizagem Baseada em Instâncias Plano de Aula Introdução Espaço
Leia maisDados Simbólicos. Universidade Federal de Pernambuco. CIn.ufpe.br
Dados Simbólicos Universidade Federal de Pernambuco CIn.ufpe.br Dados Simbólicos Dados simbólicos são informações complexas que são expressas por intervalos, conjuntos, frequências distribuições de probabilidade.
Leia mais