Agrupamento de Dados. (Clustering)
|
|
|
- Adriano Candal Lameira
- 7 Há anos
- Visualizações:
Transcrição
1 Agrupamento de Dados (Clustering)
2 Organização 1. Introdução 2. Medidas de (Dis)similaridade 3. Métodos de Agrupamento (métodos hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters
3 1. Introdução Aplicações para Técnicas de Agrupamento : Marketing: descobrir grupos de clientes e usá-los para marketing direcionado. Astronomia: encontrar grupos de estrelas e galáxias similares. Estudos sobre terrremotos: observar se epicentros estão agrupados em falhas continentais. Bioinformática: encontrar clusters de genes com expressões semelhantes. Organização de textos (text mining). Etc.
4 Classificação X Clustering Classificação: Aprender um método para predizer a classe de uma instância (objeto, exemplo, registro) a partir de exemplos pré-rotulados (classificados) Clustering: Encontrar os rótulos das classes e o número de classes diretamente a partir dos dados. Slide baseado no curso de Gregory Piatetsky-Shapiro, disponível em
5 Agrupamento de Dados (Clustering) - Aprendizado não supervisionado, segmentação; - Encontrar grupos naturais de objetos para um conjunto de dados não rotulados Slide baseado no curso de Gregory Piatetsky-Shapiro, disponível em
6 O que é um agrupamento natural entre os seguintes objetos? Cluster é um conceito subjetivo! Família Empregados da escola Mulheres Homens Keogh, E. A Gentle Introduction to Machine Learning and Data Mining for the Database Community, SBBD 2003, Manaus.
7 O que é um cluster? Definições subjetivas; Homogeneidade (coesão interna) e Heterogeneidade (separação entre grupos); Diversos critérios (índices numéricos); Induzir, impor uma estrutura aos dados.
8 Visualizando clusters : Sistema visual humano é muito poderoso para reconhecer padrões; Entretanto... Humans are good at discerning subtle patterns that are really there, but equally so at imagining them when they are altogether absent. (Carl Sagan) Everitt et al., Cluster Analysis, Chapter 2 (Visualizing Clusters), Fourth Edition, Arnold, 2001.
9 Métodos para clustering Muitos métodos/algoritmos diferentes: Para dados numéricos e/ou simbólicos Determinísticos X probabilísticos Para obter partições ou hierárquicos Partições rígidas ou sobrepostas
10 Clusters com e sem sobreposição: Sem sobreposição Com sobreposição a d k g j h e i f c b a d k g j h e i f c b Slide baseado no curso de Gregory Piatetsky-Shapiro, disponível em
11 Avaliação de Métodos de Agrupamento: Inspeção manual/visual; Benchmarking em bases rotuladas; Medidas de qualidade dos clusters: Medidas de distância. Alta similaridade interna ao cluster e baixa similaridade entre clusters distintos.
12 Organização 1. Introdução 2. Medidas de Similaridade 3. Métodos de Agrupamento (métodos hierárquicos, partições) 4. Critérios numéricos para definir o número de clusters
13 2. Medidas de Similaridade Como definir similaridade? Adotaremos uma abordagem matemática. Keogh, E. A Gentle Introduction to Machine Learning and Data Mining for the Database Community, SBBD 2003, Manaus.
14 Propriedades desejáveis para medidas de distância: D(A,B) = D(B,A) Simetria Caso contrário seria possível dizer que João é parecido com José, mas José não é parecido com João. D(A,A) = 0 Auto-similaridade Caso contrário seria possível dizer que João é mais parecido com José do que ele mesmo. D(A,B) = 0 se A=B Separação Caso contrário seria impossível separar objetos diferentes. D(A,B) D(A,C) + D(B,C) Desigualdade triangular Caso contrário seria possível dizer: A é muito parecido com C, B é muito parecido com C, mas A é muito dif. de B. Keogh, E. A Gentle Introduction to Machine Learning and Data Mining for the Database Community, SBBD 2003, Manaus.
15 Importância da desigualdade triangular: Suponhamos que se deseja encontrar o objeto mais próximo do objeto Q em uma base de dados formada por 3 objetos. Assumamos que a desigualdade triangular se aplica e que se disponha de uma tabela de distâncias entre todos os objetos da base de dados. Q a Inicialmente calculamos a distância entre Q e a (2 unidades) e entre Q e b (7.81 unidades). Neste caso, não é necessário calcular a distância entre Q e c, pois: D(Q,b) D(Q,c) + D(b,c) D(Q,b) - D(b,c) D(Q,c) D(Q,c) 5.51 D(Q,c) Ou seja, já se pode afirmar que a está mais próximo de Q do que qualquer outro objeto da base de dados. b a b c a b 2.30 c c Keogh, E. A Gentle Introduction to Machine Learning and Data Mining for the Database Community, SBBD 2003, Manaus.
16 Notação: Denotemos por X nxp uma matriz formada por n linhas (correspondentes aos objetos da base de dados) e p colunas (atributos): X = x x M xn x x x n2 L L O L x x x 1p 2 p M np Sempre que não causar confusão, por simplicidade cada objeto da base de dados (linha da matriz) será denotado por um vetor x i. Exemplo: x 1 = [ L x ] x11 1p
17 Medindo (Dis)similaridade: Distância Euclidiana (norma L 2 ) entre objetos i e j : E dij = δij = ( xik x jk ) p k = 1 Exemplo: x 1 =[2 3]; x 2 =[1 2]; x 3 =[0-1]; d 12 =? d 13 =? d 31 =? 2 12 = δ12 = ( 2 1) + ( 3 2 ) = d E Distância Euclidiana é uma medida de similaridade? * Implementações mais eficientes trabalham com distâncias Euclidianas quadradas.
18 Outras medidas de distância: d Minkowski ij = r p ( k= 1 x ik x jk ) r,r 1 Euclidiana (r = 2) d M ij = δ ij = p x k= 1 ik x jk Manhattan (L 1 ) Outras medidas de distância: Mahalanobis, correlação, etc. Mahalanobis A escolha da medida de distância usualmente depende da aplicação. Eficiência computacional também é importante.
19 Atributos nominais: Estado civil, passatempo preferido, modelo do carro, clube favorito, país, religião, etc. Medidas de dissimilaridade entre objetos i e j descritos por atributos nominais (simple matching): d k = = p ( xik = x jk ) sk = SM ( i, j ) s k k = 1 ( xik x jk ) sk = 0; 1;
20 Bases de dados formadas por diversos tipos de atributos: Método de Gower(1971) sem ponderação: p s ij = s ijk k= 1 Para atributos nominais/binários: ( x ( x ik ik = x x jk jk ) s ) s ijk ijk = 1; = 0; Para atributos numéricos: s ijk = 1 x ik x jk / R k R k = faixa de observações do atributo k (termo de normalização).
21 Medidas de Dis(similaridade) entre clusters: Diversos algoritmos de clustering requerem avaliações de dissimilaridades entre clusters. Como medir dissimilaridade? Basicamente há duas abordagens possíveis: Sumarizar as proximidades dos objetos de cada cluster (e.g. distâncias entre centróides, distância média entre objetos de clusters distintos); Objetos representativos de cada cluster (e.g. medóides, menor dissimilaridade entre objetos de clusters distintos, maior distância entre objetos de clusters distintos).
22 Proximidade entre grupos para dados contínuos e nominais: Contínuos: E dist AB = δ AB = ( xak xbk ) p k = 1 ' A [ A 1 Ap x = x,...,x ] x = x,...,x ] 2 ' B [ B 1 Bp Nominais (índice de dissimilaridade de Balakrishnan e Sanghvi, 1968): Considerando c k valores distintos para cada variável k temos: G 2 = p ck ( k= 1l = 1 p Akl p kl p Bkl ) 2 1 pkl = ( p Akl + 2 p Bkl )
23 Ponderação de atributos: Atribuir maior ou menor importância w k para cada atributo k no cálculo das (dis)similaridades: Conhecimento de domínio; Seleção de atributos (w k =0 ou w k =1); Peso w k inversamente proporcional à variabilidade dos valores do atributo k; Miligan & Cooper (1988): amplitude do intervalo é mais eficaz do que o desvio padrão. Tais procedimentos podem ser vistos como uma forma de padronização; Questionável, pois não se leva em consideração o poder de discriminação da variável, que pode ser alto justamente devido à grande variabilidade dos valores totais; Alternativa: estimar a variabilidade levando em conta os clusters. Problema: clusters são de fato desconhecidos a priori.
24 Padronização: Normalização linear; Escore z; Divisão pela amplitude ou pelo desvio padrão; Critérios de padronização baseados na variabilidade assumem que a importância do atributo é inversamente proporcional à variabilidade de seus valores.
25 Organização 1. Introdução 2. Medidas de Similaridade 3. Métodos de Agrupamento (métodos hierárquicos, partições) 4. Critérios numéricos para definir o número de clusters
26 Métodos de Agrupamento Métodos para particionamento: construir várias partições e avaliá-las segundo algum critério. Métodos hierárquicos: criar uma decomposição hierárquica do conjunto de objetos usando algum critério. Hierárquicos Particionais Keogh, E. A Gentle Introduction to Machine Learning and Data Mining for the Database Community, SBBD 2003, Manaus.
27 Propriedades desejáveis para um Algoritmo de Agrupamento Levando-se em conta a eficiência computacional: Habilidade para lidar com diferentes tipos de dados (qualitativos e quantitativos) Requerimentos mínimos em relação ao conhecimento de domínio para determinar os parâmetros de entrada; Capacidade de lidar com ruído e outliers; Insensibilidade em relação à ordem de apresentação dos registros de entrada (vetores de dados); Incorporação de restrições definidas pelo usuário; Interpretabilidade e usabilidade. Vamos iniciar pelos métodos hierárquicos... Keogh, E. A Gentle Introduction to Machine Learning and Data Mining for the Database Community, SBBD 2003, Manaus.
28 Dendrograma É uma ferramenta útil para sumarizar medidas de (dis)similaridade: Terminal Branch Root Internal Node Leaf Internal Branch * A dissimilaridade entre dois objetos é representada como a altura do nó interno mais baixo compartilhado. Keogh, E. A Gentle Introduction to Machine Learning and Data Mining for the Database Community, SBBD 2003, Manaus.
29 Hierarquias são comumente usadas para organizar a informação, como por exemplo num portal. Hierarquia do Yahoo é concebida manualmente. Como criar a hierarquia automaticamente? Business & Economy B2B Finance Shopping Jobs Aerospace Agriculture Banking Bonds Animals Apparel Career Workspace Keogh, E. A Gentle Introduction to Machine Learning and Data Mining for the Database Community, SBBD 2003, Manaus.
30 Pode-se examinar o dendrograma para estimar o número correto de clusters. No caso abaixo, existem duas sub-árvores bem separadas, sugerindo dois grupos de dados. Infelizmente na prática as distinções não são tão simples Keogh, E. A Gentle Introduction to Machine Learning and Data Mining for the Database Community, SBBD 2003, Manaus.
31 Pode-se usar o dendrograma para detectar outliers: Ramo isolado sugere que o objeto é muito diferente dos demais. Outlier Keogh, E. A Gentle Introduction to Machine Learning and Data Mining for the Database Community, SBBD 2003, Manaus.
32 Métodos clássicos para Agrupamento Hierárquico Bottom-Up (aglomerativos): - iniciar colocando cada objeto em um cluster; - encontrar o melhor par de clusters para uni-los; - Repetir até que todos os clusters sejam reunidos em um só cluster. Top-Down (divisivos): - Iniciar colocando todos os objetos em um único cluster; - Considerar modos possíveis de dividir o cluster em dois; - Escolher a melhor divisão e recursivamente operar em ambos os lados até que cada objeto forme um cluster. Keogh, E. A Gentle Introduction to Machine Learning and Data Mining for the Database Community, SBBD 2003, Manaus.
33 Inicialmente calculamos uma matriz de distâncias. Esta contém as distâncias entre cada par de objetos da base de dados: D(, ) = 8 D(, ) = Keogh, E. A Gentle Introduction to Machine Learning and Data Mining for the Database Community, SBBD 2003, Manaus.
34 Bottom-Up (aglomerativo): Iniciando com cada objeto em seu próprio cluster, encontrar o melhor par de clusters para unir em um novo cluster. Repetir até que todos os clusters sejam fundidos em um único cluster. Considerar todas as uniões possíveis Escolher a melhor Considerar todas as uniões possíveis Escolher a melhor Considerar todas as uniões possíveis Escolher a melhor
35 Como medir dis(similaridades) entre clusters? Vizinho mais próximo - Single linkage ou nearestneighbour (Florek 1951, Sneath -1957): Distância entre clusters é dada pela menor distância entre dois objetos (um de cada cluster). No método divisivo, seleciona-se inicialmente os objetos mais distantes entre si, agrupando-se os demais em função destas duas sementes iniciais; Exemplo de método aglomerativo (Everitt et al., Cluster Analysis, 2001):
36 Consideremos a seguinte matriz de distâncias iniciais (MD 1 ) entre 5 objetos {1,2,3,4,5}. Qual par de objetos será escolhido para formar o primeiro cluster? MD 1 = A menor distância entre objetos é d 12 =d 21 =2, indicando que estes dois objetos serão unidos em um cluster. Na sequência, calculamos as distâncias: d (12)3 =min{d 13,d 23 }=d 23 =5; d (12)4 =min{d 14,d 24 }=d 24 =9; d (12)5 =min{d 15,d 25 }=d 25 =8; Desta forma, obtém-se uma nova matriz de distâncias (MD 2 ), que será usada na próxima etapa do agrupamento hierárquico: 0 3 0
37 MD 2 = Qual o novo cluster a ser formado? 0 Unindo os objetos 5 e 4 obtemos três clusters: {1,2}, {4,5}, {3}. Na sequência, calculamos: d (12)3 =min{d 13,d 23 }=d 23 =5 (na verdade já calculado) d (12)(45) =min{d 14,d 15,d 24,d 25 }=d 25 =8 d (45)3 =min{d 43,d 53 }=d 43 =4 e obtém-se a seguinte matriz de distâncias: 12 0 * Unir cluster {3} com {4,5}; MD = * Finalmente, unir todos os clusters em um único cluster.
38 Outras alternativas de métodos aglomerativos: a) Vizinho mais distante (complete linkage ou furthest neighbour): distância entre clusters é medida em função da maior distância entre objetos; b) Distâncias médias (average linkage): distância entre clusters é a distância média entre todos os pares de objetos de clusters distintos (pode-se também usar os centróides); c) Método de Ward (1963): n o de clusters n o de objetos no cluster m n o de atributos min E = g n m p ( m= 1l= 1k = 1 x ml,k x m,k ) 2 Média do cluster
39 Vinculação simples (Single linkage) Vinculação Média (Average linkage) Vinculação de Ward Keogh, E. A Gentle Introduction to Machine Learning and Data Mining for the Database Community, SBBD 2003, Manaus.
40 Métodos Divisivos: Iniciam com um único cluster, que é então dividido em dois novos clusters ; Em cada etapa, cada cluster é dividido em dois novos clusters ; número de modos para dividir n objetos em dois clusters é (2 n-1 1). Por exemplo, para n=50 existem 5.63x10 14 maneiras de se obter dois clusters! Em geral são menos usados do que os métodos aglomerativos. Existem versões razoavelmente eficientes, baseados no conceito de entropia, para bases de dados formadas por atributos binários (monothetic divisive methods).
41 Heurística de MacNaughton-Smith et al. (1964): Para um dado cluster, escolher o objeto mais distante dos demais. Este formará o novo cluster. Para cada objeto, calculam-se as distâncias médias relativas ao cluster principal e ao novo cluster, fazendo com que o objeto mais próximo do novo cluster e mais distante do cluster principal faça parte do novo cluster. Exemplo de aplicação (Everitt et al., Cluster Analysis, 2001): MD = Como encontrar o objeto mais distante dos demais?
42 Para este exemplo, objeto 1 é o mais distante (cluster A); Demais objetos formam o cluster principal (B); Clusters obtidos: A={1} e B={2,3,4,5,6,7}; Consideremos que D A e D B são as distâncias médias dos objetos de B em relação aos clusters A e B respectivamente. Mais próximos de A do que de B Objetos B D A D B D B -D A , ,4 16, ,8-15, ,4-12, ,0-19, ,2-19,8 Objeto escolhido para mudar de cluster Desta forma, obtemos os clusters {1,3} e {2,4,5,6,7}. Repetindo-se o processo temos:
43 Objetos B D A D B D B -D A 2 8,5 29,5 12,0 4 25,5 13,2-12,3 5 25,5 15,0-10,5 6 34,5 16,0-18,5 7 39,0 18,7-20,3 Mudar para A Novos clusters: {1,3,2} e {4,5,6,7}. Próximo passo: todos (D B -D A ) negativos; Pode-se continuar o processo em cada cluster separadamente...
44 Como saber se realmente existe um agrupamento (clustering)? Admissibilidade de Mirkin (1996): Existe um agrupamento se todas as distâncias internas (within-cluster distances) aos clusters são menores do que todas as distâncias externas (between-cluster distances); Compactação e Separação; Mas não esquecer que existem várias maneiras de se calcular tais distâncias!
45 Sumário dos Métodos Hierárquicos: Não necessitam especificar o número de clusters a priori, mas o usuário acaba tendo que escolhê-lo; Sofrem do defeito de que não se pode reparar o que foi feito num passo anterior; Escalabilidade é um problema: O(n 2 ), n = número de objetos; Algoritmo de busca heurístico: ótimos locais são um problema; Interpretação dos resultados é intuitiva, mas em geral muito subjetiva. Existem também critérios numéricos para definir o número de clusters (e.g. Everitt et al., Cluster Analysis, 2001). Estudaremos alguns destes critérios mais adiante. Por ora vamos nos concentrar numa outra grande classe de métodos de agrupamento: métodos para obter partições.
46 Organização 1. Introdução 2. Medidas de Similaridade 3. Métodos de Agrupamento (métodos hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters
ANÁLISE DE AGRUPAMENTOS
ANÁLISE DE AGRUPAMENTOS Análise de Agrupamentos 2 Definição Consistem em encontrar grupos de objetos entre os objetos Categorizá-los ou agrupá-los Tipo de aprendizado não supervisionado Encontrar grupos
Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka
Classificação: Árvores de Decisão e k-nn Eduardo Raul Hruschka Árvores de Decisão Métodos para aproximar funções discretas, representadas por meio de uma árvore de decisão; Árvores de decisão podem ser
Aprendizado de Máquina
Aprendizado de Máquina André C. P. L. F. de Carvalho Posdoutorando: Isvani Frias-Blanco ICMC-USP Agrupamento de dados Tópicos Agrupamento de dados Dificuldades em agrupamento Algoritmos de agrupamento
Aula 7 Medidas de Distância. Profa. Elaine Faria UFU
Aula 7 Medidas de Distância Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof Andre C. P. L. F. Carvalho Agradecimentos Ao professor André
Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters
Universidade Técnica de Lisboa INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO Informática e Sistemas de Informação Aplicados em Economia Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters Descoberta
2 Processo de Agrupamentos
20 2 Processo de Agrupamentos A análise de agrupamentos pode ser definida como o processo de determinação de k grupos em um conjunto de dados. Para entender o que isso significa, observe-se a Figura. Y
Análise de Agrupamento (Cluster analysis)
Análise de Agrupamento (Cluster analysis) Anderson Rodrigo da Silva 1 Exemplos de aplicações de análise de agrupamento Pesquisas de mercado Agrupamento de cidades-teste Bancos de germoplasma Caracterização
Reconhecimento de Padrões
Reconhecimento de Padrões André Tavares da Silva [email protected] Roteiro da aula Conceitos básicos sobre reconhecimento de padrões Visão geral sobre aprendizado no projeto de classificadores Seleção
Inteligência Artificial
Universidade Federal de Campina Grande Departamento de Sistemas e Computação Pós-Graduação em Ciência da Computação Inteligência Artificial Aprendizagem Outras Técnicas Prof. a Joseana Macêdo Fechine Régis
PRÁTICA 8. A Distância Euclidiana entre dois vetores n-dimensionais x e y é definida como o escalar: d = norm(x y)
PRÁTICA 8 1) Medidas de Distância. A Distância Euclidiana entre dois vetores n-dimensionais e y é definida como o escalar: d 1 2 2 [( y ) + + ( y ) ] 2 e (, y) = y = y = 1 1 L n n esta epressão é a Norma
Metodologia Aplicada a Computação.
Metodologia Aplicada a Computação [email protected] Pré-processamento de dados Técnicas utilizadas para melhorar a qualidade dos dados; Eliminam ou minimizam os problemas como ruídos, valores incorretos,
3 Técnicas de agrupamento
3 Técnicas de agrupamento Com o advento da internet a quantidade de informação disponível aumentou consideravelmente e com isso, tornou-se necessário uma forma automática de organizar e classificar esta
Aprendizado de Máquina
Aprendizado de Máquina Template Matching Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://lesoliveira.net October 25, 2012 Luiz S. Oliveira (UFPR) Aprendizado
Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]
Inteligência Artificial Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo] Aprendizagem de Máquina Área da Inteligência Artificial cujo objetivo é o desenvolvimento de técnicas computacionais sobre
INF 1771 Inteligência Artificial
INF 1771 Inteligência Artificial Aula 13 K-Nearest Neighbor (KNN) 2016.1 Prof. Augusto Baffa Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest Neighbor
Redes Neurais não Supervisionadas: SOM
Universidade Federal do Rio Grande do Norte Departamento de Engenharia de Computação e Automação Redes Neurais não Supervisionadas: SOM DCA0121 Inteligência Artificial Aplicada Heitor Medeiros 1 Tópicos
Estatística Descritiva
C E N T R O D E M A T E M Á T I C A, C O M P U T A Ç Ã O E C O G N I Ç Ã O UFABC Estatística Descritiva Centro de Matemática, Computação e Cognição March 17, 2013 Slide 1/52 1 Definições Básicas Estatística
Mapeamento do uso do solo
Multidisciplinar Mapeamento do uso do solo para manejo de propriedades rurais Allan Arnesen Frederico T. Genofre Marcelo Pedroso Curtarelli CAPÍTULO 4 Técnicas de classificação de imagens e processamento
Segmentação e Classificação. Prof. Herondino
Segmentação e Classificação Prof. Herondino Segmentação Neste processo, divide-se a imagem em regiões que devem corresponder às áreas de interesse da aplicação. Entende-se por regiões um conjunto de "pixels"
A análise de aglomerados
Mais importante do que saber fazer é saber o por quê (Norbert Wiener (1894 1964). Prof. Lorí Viali, Dr. [email protected]; [email protected]; http://www.pucrs.br/famat/viali; http://www.mat.ufrgs.br/~viali/
SM - Sistemas Multimédia CODIFICAÇÃO DE FONTE (parte 2) 4.º / 6.º semestre LEIC (verão 2016/2017)
SM - Sistemas Multimédia CODIFICAÇÃO DE FONTE (parte 2) 4.º / 6.º semestre LEIC (verão 2016/2017) Tópicos Propriedades dos códigos de fonte Código ótimo e código ideal Singularidade, descodificação única,
Instituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI
1 Sumário 2 Introdução Técnicas de ESDA Matrizes de Proximidade Espacial Média Espacial Móvel (m i ) Indicadores Globais de Autocorrelação Espacial Índices Globais de Moran (I), Geary (C) e Getis e Ord
Paradigmas de Aprendizagem
Universidade Federal do Espírito Santo Centro de Ciências Agrárias CCA UFES Departamento de Computação Paradigmas de Aprendizagem Redes Neurais Artificiais Site: http://jeiks.net E-mail: [email protected]
Adilson Cunha Rusteiko
Janeiro, 2015 Estatística , A Estatística Estatística: É a parte da matemática aplicada que fornece métodos para coleta, organização, descrição, análise e interpretação
UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica
REDES NEURAIS ARTIFICIAIS AULA 03 Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 INTRODUÇÃO Aprendizagem é um processo pelo qual os parâmetros livres de uma rede neural são adaptados através de um processo
Escalonamento Multidimensional
Programa de Pós-Graduação em Administração de Organizações (PPGAO) Análise de dados multivariados I Escalonamento Multidimensional Escalonamento Multidimensional (EMD) CAPÍTULO 9 Escalonamento Multidimensional
Interpolação polinomial: Polinômio de Lagrange
Interpolação polinomial: Polinômio de Lagrange Marina Andretta ICMC-USP 09 de maio de 2012 Baseado no livro Análise Numérica, de R. L. Burden e J. D. Faires. Marina Andretta (ICMC-USP) sme0500 - cálculo
1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.
1 1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3. Modelo de Resultados Potenciais e Aleatorização (Cap. 2 e 3
ANÁLISE DE AGRUPAMENTO APLICADA AO CRESCIMENTO POPULACIONAL DE ALGUNS PAÍSES EUROPEUS
ANÁLISE DE AGRUPAMENTO APLICADA AO CRESCIMENTO POPULACIONAL DE ALGUNS PAÍSES EUROPEUS Edwirde Luiz SILVA 1, Dalila Camêlo AGUIAR 2 1 Departamento de Estatística, Universidade Estadual da Paraíba - UEPB,
Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si
Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si Classificação de Dados Os modelos de classificação de dados são preditivos, pois desempenham inferências
RANILDO LOPES. Estatística
RANILDO LOPES Estatística 1 A Estatística é um ramos da Matemática que dispõe de processos apropriados para recolher, organizar, classificar, apresentar e interpretar determinados conjuntos de dados. A
Mineração de Dados. Eduardo Raul Hruschka. Baseado no curso de Gregory Piatetsky-Shapiro, disponível no sítio
Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível no sítio http://www.kdnuggets.com Visão Geral: Introdução: motivação, aplicações, conceitos básicos. Agrupamento
UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica
REDES NEURAIS ARTIFICIAIS MÁQUINA DE VETOR DE SUPORTE (SUPPORT VECTOR MACHINES) Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 Introdução Poderosa metodologia para resolver problemas de aprendizagem
APLICAÇÃO DE ANÁLISE DE CLUSTER EM VALORES NUTRICIONAIS REFERENTES Á TIPOS DE CARNES
APLICAÇÃO DE ANÁLISE DE CLUSTER EM VALORES NUTRICIONAIS REFERENTES Á TIPOS DE CARNES Samara Rilda de S.BEZERRA 1, Edwirde Luiz SILVA 1,Aldreany P.Araújo SILVA 1 1 Departamento de Estatística, Universidade
Análise de agrupamento dos dados sedimentológicos da plataforma e talude continentais da Bahia
Análise de agrupamento dos dados sedimentológicos da plataforma e talude continentais da Bahia ÂNGELA CRISTINA DA FONSECA MIRANTE 1 2 4 JOÃO DOMINGOS SCALON 2 4 TÂNIA MARIA FONSECA ARAÚJO 3 TÂNIA JUSSARA
3 Aprendizado por reforço
3 Aprendizado por reforço Aprendizado por reforço é um ramo estudado em estatística, psicologia, neurociência e ciência da computação. Atraiu o interesse de pesquisadores ligados a aprendizado de máquina
INF 1771 Inteligência Artificial
INF 1771 Inteligência Artificial Aula 14 Support Vector Machines (SVM) 2016.1 Prof. Augusto Baffa Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest
MINERAÇÃO DE DADOS. Thiago Marzagão CLUSTERIZAÇÃO. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1 / 9
MINERAÇÃO DE DADOS Thiago Marzagão [email protected] CLUSTERIZAÇÃO Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1 / 9 regressão/classificação vs clusterização Regressão/classificação: temos x 1, x 2,...,
Estatística descritiva básica: Medidas de tendência central
Estatística descritiva básica: Medidas de tendência central ACH2021 Tratamento e Análise de Dados e Informações Marcelo de Souza Lauretto [email protected] www.each.usp.br/lauretto *Parte do conteúdo
Álgebra Linear Semana 04
Álgebra Linear Semana 04 Diego Marcon 17 de Abril de 2017 Conteúdo 1 Produto de matrizes 1 11 Exemplos 2 12 Uma interpretação para resolução de sistemas lineares 3 2 Matriz transposta 4 3 Matriz inversa
Resolução de problemas com apenas restrições lineares de igualdade
Resolução de problemas com apenas restrições lineares de igualdade Marina Andretta ICMC-USP 14 de outubro de 2014 Marina Andretta (ICMC-USP) sme0212 - Otimização não-linear 14 de outubro de 2014 1 / 22
Uma Introdução a SVM Support Vector Machines. Obs: Baseada nos slides de Martin Law
Uma Introdução a SVM Support Vector Machines Obs: Baseada nos slides de Martin Law Sumário Historia das SVMs Duas classes, linearmente separáveis O que é um bom limite para a decisão? Duas classes, não
AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO
AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS MATEMÁTICA 7.º ANO PLANIFICAÇÃO ANUAL Planificação 7º ano 2010/2011 Página 1 DOMÍNIO TEMÁTICO: NÚMEROS
TIPOS DE AMOSTRAGEM Amostragem Probabilística e Não-Probabilística. Amostragem PROBABILÍSTICA: Amostragem Aleatória Simples: VANTAGENS:
TIPOS DE AMOSTRAGEM Amostragem Probabilística e Não-Probabilística. Amostragem PROBABILÍSTICA: Técnicas de amostragem em que a seleção é aleatória de tal forma que cada elemento tem igual probabilidade
Problema de Particionamento de Conjuntos
Problema de Particionamento de Conjuntos Eliana Fátima Nóbrega da Silveira Professor: João Soares Trabalho elaborado no âmbito da disciplina de Optimização Combinatória Disciplina da Licenciatura em Matemática
x exp( t 2 )dt f(x) =
INTERPOLAÇÃO POLINOMIAL 1 As notas de aula que se seguem são uma compilação dos textos relacionados na bibliografia e não têm a intenção de substituir o livro-texto, nem qualquer outra bibliografia Aproximação
SCC0173 Mineração de Dados Biológicos
SCC073 Mineração de Dados Biológicos Análise Exploratória de Dados Parte A: Revisão de Estatística Descritiva Elementar Prof. Ricardo J. G. B. Campello SCC / ICMC / USP Tópicos Análise Exploratória de
Níveis descritivos de testes estatísticos de variabilidade como medidas de similaridade entre objetos em análises de agrupamento
Níveis descritivos de testes estatísticos de variabilidade como medidas de similaridade entre objetos em análises de agrupamento Luiz Roberto Martins Pinto 1 Leonardo Evangelista Moraes 2 Priscila Ramos
AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO
AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS MATEMÁTICA 7.º ANO PLANIFICAÇÃO GLOBAL Múltiplos e divisores. Critérios de divisibilidade. - Escrever múltiplos
Introdução ao Reconhecimento de Padrões e aplicações em problemas de Bioinformática
ao Reconhecimento de Padrões e aplicações em problemas de Bioinformática [email protected] UTFPR-CP Grupo de Pesquisa em Bioinformática e Reconhecimento de Padrões [email protected] Curso de
Eduardo Camponogara. DAS-9003: Introdução a Algoritmos
Caminhos Mínimos entre Todos os Vértices 1/ 48 Caminhos Mínimos entre Todos os Vértices Eduardo Camponogara Departamento de Automação e Sistemas Universidade Federal de Santa Catarina DAS-9003: Introdução
Estatística Descritiva
Estatística Descritiva 1 O que é Estatística A Estatística originou-se com a coleta e construção de tabelas de dados para o governo. A situação evoluiu e esta coleta de dados representa somente um dos
INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por
INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática (1) Data Mining Conceitos apresentados por 1 2 (2) ANÁLISE DE AGRUPAMENTOS Conceitos apresentados por. 3 LEMBRE-SE que PROBLEMA em IA Uma busca
Profa. Lidia Rodella UFPE-CAA
Profa. Lidia Rodella UFPE-CAA O que é estatística? É conjunto de técnicas que permite, de forma sistemática, coletar, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos,
Sistemas Lineares. ( Aula 3 )
Sistemas Lineares ( Aula 3 ) Determinante Definição: Determinante Matriz quadrada é a que tem o mesmo número de linhas e de colunas (ou seja, é do tipo n x n). A toda matriz quadrada está associado um
Aula 5 - Produto Vetorial
Aula 5 - Produto Vetorial Antes de iniciar o conceito de produto vetorial, precisamos recordar como se calculam os determinantes. Mas o que é um Determinante? Determinante é uma função matricial que associa
Métodos Não Paramétricos
Universidade Federal do Paraná Departamento de Informática Reconhecimento de Padrões Métodos não Paramétricos Luiz Eduardo S. Oliveira, Ph.D. http://lesoliveira.net Métodos Não Paramétricos Introduzir
UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica
REDES DE FUNÇÃO DE BASE RADIAL - RBF Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 Funções de Base Global Funções de Base Global são usadas pelas redes BP. Estas funções são definidas como funções
Comparação entre o método Ward e o método K-médias no agrupamento de produtores de leite
Comparação entre o método Ward e o método K-médias no agrupamento de produtores de leite Enio Júnior Seidel,Fernando de Jesus Moreira Júnior, Angela Pelegrin Ansuj, Maria Rosane Coradini Noal Departamento
Interpolação polinomial: Diferenças divididas de Newton
Interpolação polinomial: Diferenças divididas de Newton Marina Andretta ICMC-USP 16 de maio de 2012 Baseado no livro Análise Numérica, de R. L. Burden e J. D. Faires. Marina Andretta (ICMC-USP) sme0500
Produto interno, externo e misto de vectores
MTDI I - 00/08 - Produto Interno Produto interno, externo e misto de vectores A noção de produto interno (ou escalar) de vectores foi introduzida no ensino secundário, para vectores com duas ou três coordenadass.
Estatística Descritiva
Estatística Descritiva ESQUEMA DO CAPÍTULO 6.1 IMPORTÂNCIA DO SUMÁRIO E APRESENTAÇÃO DE DADOS 6.2 DIAGRAMA DE RAMO E FOLHAS 6.3 DISTRIBUIÇÕES DE FREQUÊNCIA E HISTOGRAMAS 6.4 DIAGRAMA DE CAIXA 6.5 GRÁFICOS
DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...
DCBD Métricas para avaliação de desempenho Como avaliar o desempenho de um modelo? Métodos para avaliação de desempenho Como obter estimativas confiáveis? Métodos para comparação de modelos Como comparar
Variáveis estatísticas ou variáveis: Os atributos (modalidades) ou magnitudes (valores) que se observam nos indivíduos de uma população.
CPAR - UFMS A Estatística: é a ciência que estuda, mediante métodos quantitativos, as populações que se obtém com síntese da observação de unidades estatísticas (Ibarrola et. Al, 2006). População: qualquer
Rede RBF (Radial Basis Function)
Rede RBF (Radial Basis Function) André Tavares da Silva [email protected] Roteiro Introdução à rede neural artificial RBF Teorema de Cover da separabilidade de padrões RBF x MLP RBF Função de ativação
AUTOCORRELAÇÃO ESPACIAL. Flávia F. Feitosa
AUTOCORRELAÇÃO ESPACIAL Flávia F. Feitosa BH1350 Métodos e Técnicas de Análise da Informação para o Planejamento Junho de 2015 AULAS ANTERIORES A importância analítica do espaço para o Planejamento Territorial
Introdução à Estatística Estatística Descritiva 22
Introdução à Estatística Estatística Descritiva 22 As tabelas de frequências e os gráficos constituem processos de redução de dados, no entanto, é possível resumir de uma forma mais drástica esses dados
Medidas de Dispersão ou variabilidade
Medidas de Dispersão ou variabilidade A média - ainda que considerada como um número que tem a faculdade de representar uma série de valores - não pode, por si mesma, destacar o grau de homogeneidade ou
Organização de dados
Organização de dados Coletar dados podem envolver diversas atividades tais como experimentos em laboratório, observações de campo, pesquisa de opinião, exame de registros históricos,... A quantidade de
Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães.
Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães. O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise de dados e algoritmos
Estimação e Testes de Hipóteses
Estimação e Testes de Hipóteses 1 Estatísticas sticas e parâmetros Valores calculados por expressões matemáticas que resumem dados relativos a uma característica mensurável: Parâmetros: medidas numéricas
Prof. Daniela Barreiro Claro
O volume de dados está crescendo sem parar Gigabytes, Petabytes, etc. Dificuldade na descoberta do conhecimento Dados disponíveis x Análise dos Dados Dados disponíveis Analisar e compreender os dados 2
UNIVERSIDADE FEDERAL DA PARAÍBA CÁLCULO DAS PROBABILIDADES E ESTATÍSTICA I
UNIVERSIDADE FEDERAL DA PARAÍBA CÁLCULO DAS PROBABILIDADES E ESTATÍSTICA I Departamento de Estatística Tarciana Liberal CONCEITOS FUNDAMENTAIS DE ESTATÍSTICA O que a Estatística significa para você? Pesquisas
UNIVERSIDADE FEDERAL DA PARAÍBA ESTATÍSTICA VITAL
UNIVERSIDADE FEDERAL DA PARAÍBA ESTATÍSTICA VITAL Departamento de Estatística Tarciana Liberal CONCEITOS FUNDAMENTAIS DE ESTATÍSTICA O que a Estatística significa para você? Pesquisas eleitorais Taxa de
Combinação de Classificadores (fusão)
Combinação de Classificadores (fusão) André Tavares da Silva [email protected] Livro da Kuncheva Roteiro Sistemas com múltiplos classificadores Fusão por voto majoritário voto majoritário ponderado
