TÉCNICAS DE AGRUPAMENTO CLUSTERING

Documentos relacionados
Aprendizagem de Dados Simbólicos e/ou Numéricos. Francisco Carvalho

Rememorando. Situação-problema 5. Teorema do Limite Central. Estatística II. Aula II

Por outras palavras, iremos desenvolver a operação inversa da derivação conhecida por primitivação.

FICHA de AVALIAÇÃO de MATEMÁTICA A 12.º Ano de escolaridade Versão.3

Outras Técnicas que Utilizam o Escore de Propensão

FICHA de AVALIAÇÃO de MATEMÁTICA A 12.º Ano de escolaridade Versão.4

PROTOCOLO PARA ESTIMAR ERROS DE DISCRETIZAÇÃO EM CFD: VERSÃO 1.1. Carlos Henrique Marchi. Curitiba, UFPR, setembro de 2005.

5 Ferramentas de analise

SME0822 Análise Multivariada 2 o semestre de 2014

Noções de Testes de Hipóteses

SME0822 Análise Multivariada 2 o semestre de 2014

Roteiro-Relatório da Experiência N o 7

Cap. 6. Definição e métodos de resolução do problema de valores de fronteira

PROGRAMA/BIBLIOGRAFIA e NORMAS DE AVALIAÇÃO

Exames Nacionais. Prova Escrita de Matemática A 2009 VERSÃO Ano de Escolaridade Prova 635/1.ª Fase. Grupo I

SME0822 Análise Multivariada 2 o semestre de Prof. Cibele Russo. Sala 3-113

Passeio aleatório: jogo da roleta e apostas esportivas

Modelo de confiabilidade, disponibilidade e manutenibilidade de sistemas, aplicado a plataformas de petróleo.

Capítulo II: Estimação Pontual: noções básicas de estimação; método dos momentos e método da máxima verosimilhança; propriedades.

Passos lógicos. Texto 18. Lógica Texto Limitações do Método das Tabelas Observações Passos lógicos 4

UNIVERSIDADE FEDERAL DO PARANÁ

APOSTILA DE MÉTODOS QUANTITATIVOS

ESCOAMENTO ANUAL 1 DISTRIBUIÇÃO ESTATÍSTICA

PROGRAMA/BIBLIOGRAFIA e NORMAS DE AVALIAÇÃO

Aula # 8 Vibrações em Sistemas Contínuos Modelo de Segunda Ordem

Aplicando a equação de Bernoulli de (1) a (2): A equação (1) apresenta quatro (4) incógnitas: p1, p2, v1 e v2. 2 z

ESTUDO DE CUSTOS UTILIZANDO CADEIAS ABSORVENTES DE MARKOV

ESCOLA SUPERIOR DE TECNOLOGIA E GESTÃO

Estudo da influência dos índices de severidade na segurança de um Sistema Eléctrico de Energia

Transformação dos dados. Analise de Componentes Principais - PCA

Programação Paralela e Distribuída 2010/11. Métricas de Desempenho. Ricardo Rocha DCC-FCUP

PLANO DE ENSINO 2009/1

4 Cargas Dinâmicas 4.1 Introdução

Conjunto de Valores. A Função de Probabilidade (fp)

UNIVERSIDADE DE COIMBRA - FACULDADE DE CIÊNCIAS E TECNOLOGIA DEPARTAMENTO DE MATEMÁTICA ALGORITMO DO PONTO MÉDIO PARA

Função par e função ímpar

Cap. 6. Definição e métodos de resolução do problema de valores de fronteira

Redes Neurais e Sistemas Fuzzy

COLORAÇÃO DE VÉRTICES COM FOLGA

PLANO DE CONTEÚDO MÍNIMO (PCM) - UNIDADE UNIVERSITÁRIA DE COMPUTAÇÃO. Professora Rosana da Paz Ferreira CCB1052 (2018.2)

Escala de Medidas de Variáveis. Tabelas de Frequência. Frequência absoluta e relativa de dados quantitativos.

PLANO DE CONTEÚDO MÍNIMO (PCM) - UNIDADE UNIVERSITÁRIA DE COMPUTAÇÃO. Professora Rosana da Paz Ferreira CCB1052 (2018.2)

Situação-problema 3. Situação-problema 3. Situação-problema 3. Situação-problema 3. Distribuição Amostral da Proporção.

SISTEMA DE CONTROLE ADAPTATIVO PARA UM SISTEMA PRODUTIVO CONTÍNUO. O CASO DA CURVA POLINOMIAL DE CRESCIMENTO DE SUÍNOS TIPO CARNE.

MODELAGEM DO CUSTO DO TRANSPORTE RODOVIÁRIO DE MADEIRA UTILIZANDO REGRESSÃO LINEAR MÚLTIPLA

O que é um Modelo Matemático?

Segunda aula de fenômenos de transporte para engenharia civil. Estática dos Fluidos capítulo 2 do livro do professor Franco Brunetti

1 LIMITES FUNDAMENTAIS NA TEORIA DA INFORMAÇÃO

Análise de componentes principais com dados pluviométricos no estado do Ceará

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

8, 9 e 10) Figura 8. Figura 9. Figura 10

A bibliografia pode ser acessada gratuitamente na página: Capítulo 2 Hidrostática

Universidade Federal do Amazonas Departamento de Física. Interferômetro de Michelson-Morley

UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO DEPARTAMENTO DE CIÊNCIAS AMBIENTAIS FENÔMENOS DE TRANSPORTE MECÂNICA DOS FLUIDOS

DISCIPLINA: PROBABILIDADE E ESTATÍSTICA TURMA: Informática de Gestão

Modelos para Regressão. Modelos lineares. Exemplo. Método de regressão linear

Algoritmos de Inteligência de Enxames por Colônia de Formigas na Análise de Indicadores Ambientais de Bacias Hidrográficas

Parâmetros do Hidrograma Unitário para bacias urbanas brasileiras

Módulo (ou valor absoluto) de um número real: a função modular

3 Propagação em ambientes abertos na faixa GHz

Impacto do retorno vazio sobre os fretes rodoviários

FICHA DE COMPONENTE CURRICULAR

MADEIRA arquitetura e engenharia

FICHA de AVALIAÇÃO de MATEMÁTICA A 12.º Ano de escolaridade Versão.1

AA-220 AERODINÂMICA NÃO ESTACIONÁRIA

Nome do Autor. Título do Livro

Aula 4 e 5 de laboratório. Segundo semestre de 2012

Teste de hipóteses para médias e proporções amostrais

Identidades Termodinâmicas

Gestão de Riscos e Investimentos

SEPARAÇÃO SÓLIDO-FLUIDO NO CAMPO GRAVITACIONAL: GERAÇÃO DE MATERIAL DIDÁTICO EMPREGANDO SIMULAÇÕES CFD

3 Conceitos básicos relacionados à estrutura a termo da taxa de juros

Seleção de variáveis categóricas utilizando análise de correspondência e análise procrustes

Teste de hipóteses para médias e proporções amostrais

CONTROLE ESTATÍSTICO DO PROCESSO: ABORDAGEM MULTIVARIADA PARA MEDIDAS INDIVIDUAIS

AULA 8: TERMODINÂMICA DE SISTEMAS GASOSOS

Segunda aula de teoria de ME5330. Fevereiro de 2011

METODOLOGIA DE INVESTIGAÇÃO CIENTÍFICA

Decisão Multicritério e Otimização Combinatória aplicadas à seleção de contribuintes do ICMS para fins de auditoria

EXAME NACIONAL DO ENSINO SECUNDÁRIO

Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO. Junho de 2017

c. De quantas formas diferentes podemos ir de A até C, passando por B, e depois voltar para A sem repetir estradas e novamente passando por B?

Estruturas de Betão Armado II 17 Pré-Esforço Perdas

PÓS-GRADUAÇÃO ANÁLISE DE DATA MINING

PLANO DE ENSINO MÉTODOS ESTATÍSTICOS II. 1) IDENTIFICAÇÃO Disciplina: Método Estatístico II Código da Disciplina:

Angela Fontana Marques

Programação de um semáforo usando o método do grau de saturação

Somas de números naturais consecutivos

Jorge Caiado CEMAPRE/ISEG, Universidade Técnica de Lisboa Web:

Estática dos Fluidos. Prof. Dr. Marco Donisete de Campos

Introdução às Redes Neurais Artificiais

ESCOLA SUPERIOR DE TECNOLOGIA E GESTÃO

ANÁLISE DE POTÊNCIA MUSCULAR EM MEMBROS INFERIORES DE ATLETAS PRATICANTES DE CICLISMO.

SIMULADO. 05) Atribuindo-se todos os possíveis valores lógicos V ou F às proposições A e B, a proposição [( A) B] A terá três valores lógicos F.

Modelos Contínuos. nuos

4 Modelagem proposta da programação do sub-sistema

Um Modelo Híbrido para Previsão de Produção de Petróleo

Transcrição:

ISSN Nº: 1983-168 TÉCNICS DE GRUPMENTO CLUSTERING utores: Istvan aroly asznar, PhD Professor Titular da FGV e Presidente da IBCI Bento Mario Lages Gonçalves, MSc Consultor Senior da IBCI

CLUSTERING 1- Introdução Os rocedimentos exlanatórios são de grande ajuda na comreensão da natureza comlexa das relações multivariadas. Conforme enfatizamos anteriormente a lotagem dos dados (observações) é um instrumento que ermite melhor visualização do universo amostral com o objetivo do desenvolvimento de metodologia de classificação. Neste êndice serão discutidas técnicas de lotagem dos dados e metodologias ste by ste (asso a asso) ou algorítmos ara o agruamento de objetos (variáveis ou ítens). busca de dados ara a estruturação de agruamentos naturais é uma técnica exlanatória imortante. gruamentos odem rover meios informacionais ara avaliar a dimensionalidade, identificar exclusões gruais e sugerir hióteses referentes ao interrelacionamento das variáveis gruais. O agruamento, ou clustering, difere das metodologias de classificação reviamente discutidas como a análise discriminante múltila e a análise canônica. classificação é ertinente a um número conhecido de gruos e seu objetivo oeracional é enquadrar novas observações a um destes gruos. análise de Cluster é uma técnica mais rimitiva uma vez que nenhum ressuosto é assumido no que tange ao número de gruos ou a sua estruturação. O agruamento é realizado a artir de similaridades ou distâncias entre seus comonentes (dissimilaridades). Os únicos ré-requisitos são medidas de similaridade ou dados sob os quais ossam ser calculadas similaridades. Para ilustrar a natureza da dificuldade na definição de gruos naturais, vamos considerar a ordenação de 16 cartas figuradas de um baralho convencional em clusters ou objetos similares. lguns agruamentos são realizados na Figura I a seguir. Fica bastante claro que artições significativas deendem da definição de similaridade.

Figura I gruamentos de Cartas Figuradas (a) Cartas Individuais (b) gruamento or Naie (c) gruamento or Cor do Naie (d) gruamento or Naies Maiores e Menores (Bridge) (e) Coas mais Rainha de Esada e Outros Naies (f) gruamento or Face da Carta Na maioria das alicações ráticas da análise de cluster o esquisador tem conhecimento suficiente ara distinguir bons agruamentos de maus agruamentos. Por que não enumerar todas as ossibilidades de agruamento e selecionar as melhores ara estudo osterior? Para o exemlo das cartas do baralho, existe uma maneira de formar um único gruo de 16 cartas figuradas; existem 3.767 maneiras de articionar as cartas figuradas em dois gruos (de tamanhos variados); existem 7.141.686 maneiras de ordenar as cartas figuradas em três gruos (de tamanhos variados), e assim or diante 1. Evidentemente as limitações de temo tornam ossível a determinação dos melhores agruamentos de objetos similares a artir de uma lista com todas as estruturas ossíveis. evolução da caacidade de rocessamento dos comutadores vem ermitindo a maniulação de um número cada vez maior de casos (variáveis), de tal forma que algorítmos vem sendo desenvolvidos na busca de uma boa, talvez não a melhor, forma de agruamento. (1) O número de maneiras de ordenação de n objetos em k gruos não fechados é um número Stirling(Ver (1) Bibliografia) do segundo grau dado or : (1/ k!) k j= 0 ( 1) k j k j j n

dicionando tais números ara k = 1,,..., n gruos, obtemos o número total de ossibilidades de ordenação de n objetos em gruos. Em suma, o objetivo básico da análise de cluster é descobrir gruamentos naturais dos ítens (ou variáveis). Desse modo, devemos rimeiramente desenvolver uma escala quantitativa de maneira a medir a associação (similaridade) entre os objetos. seção a seguir é dedicada a discussão das medidas de similaridade. Nas seções seguintes são discutidos os algorítmos mais comuns utilizados na ordenação de objetos em gruos. Medidas de Similaridade maioria dos esforços disendidos na rodução de uma estrutura grual simles a artir de um conjunto de dados comlexos requer medidas de roximidade ou similaridade. Existe semre um elevado grau de subjetividade no que tange a escolha de uma medida de similaridade. Considerações imortantes como a natureza das variáveis (discreta, contínua, binária), as escalas de medida (nominal, ordinal, intervalo, quosciente) e o conhecimento esecífico do assunto em tela; devem ser ativadas. uando itens (unidades ou casos) são clusterizados, sua roximidade é indicada or algum tio de distância. Por outro lado, as variáveis são agruadas baseadas no seu coeficiente de correlação ou outras medidas estatísticas de associação..1 Distâncias e Coeficientes de Similaridade ara Pares de Ítens noção de distância advém da discussão relativa às medidas de disersão estatística. Relembrando a distância Euclideana (linha reta) entre duas observações -dimensionais X = [x 1, x,..., x ] e Y = [y 1, y,..., y ] é dada or : d( x, = ( x1 y1) + ( x y ) +... + ( x y ) = ( x /( x distância estatística entre as mesmas observações é dada or : d( x, = ( x / ( x Onde = S -1, e S contém as variâncias simles e as covariâncias. Contudo sem o conhecimento révio dos gruos distintos, estas quantidades amostrais não odem ser comutadas. Por esta razão a distância Euclideana é frequentemente referida na análise de cluster.

Uma outra medida de distância é a métrica de Minkowsky, que é dada or : d 1/ m m ( x, = i= 1 ( ) x i y i Para m=1, d(x, mede a distância em bloco de dois ontos em dimensões. Para m=, d(x, se torna a distância Euclideana. De uma maneira geral, a variação de m determina o eso dado ara grandes e equenas diferenças de distância. Bibliografia rley, N. e Buch,. R.; Introduction to then theory of robability and Statistics; Wiley and Sons Publishers; New York; US; 1.950. Cramér, Harald; Random Variables and robability Distributions; Cambridge University Press; Cambridge; 1.937. Doob.. L.; Stochastic Processes; Wiley and Sons Publishers; New York; US; 1.953. Cramér, Harald; Elementos da Teoria da Probabilidade e lgumas de suas alicações; Editora Mestre ou; São Paulo; SP; 1.973. Gnanadesikan, R.; Methods for Statistical Data nalysis of Multivariate Observations; ohn Wiley; New York; US; 1.977. Haavelmo, T.; The Statistical Imlications of a System of Simultaneous Equations; Econometrica; volume 11; january, 1.943. endall, M. G.; The advanced Theory of Statistics; volumes I and II; London; Griffin; 1.959. Lévy, P.; Théorie de l addition des variables aléatoires; Paris, Gauthier, Vilars; France; 1.977. Lischutz, Seymour; Probabilidade; Coleção Schaum; Editora McGraw Hill do Brasil; @ edição revisada; São Paulo; SP; 1.974. Siegel, Murray R.; Estatística; Coleção Schaum; Editora McGraw Hill do Brasil; São Paulo, SP; 1.976. Wonnacott, Ronald,.; Wonnacott, Thomas, H.; Econometria; Livros Técnicos e Científicos Editora; Rio de aneiro; R; 1.978.