Análise de Agrupamentos (Clusters) Marcelo Lauretto

Tamanho: px
Começar a partir da página:

Download "Análise de Agrupamentos (Clusters) Marcelo Lauretto"

Transcrição

1 Anáse de Agrupamentos (Custers) Marceo Lauretto

2 Introdução Anáse de Agrupamentos (Custer Anayss) é um conunto de técncas com o obetvo prncpa de dentfcar obetos/entdades com característcas smares. Obetvo: Formação de grupos/casses de obetos com ata homogenedade nterna (ntra-custer) e ata heterogenedade eterna (nter-custers). Em Integênca Artfca é comumente consderada como como uma abordagem de Aprendzado Não-supervsonado: Novos casos são atrbuídos ao custer mas prómo

3 Y Novo caso é atrbuído ao custer mas prómo X

4 Agumas áreas de apcação Pscooga: Cassfcação de pessoas de acordo com seus perfs de personadade Booga: Cassfcação de espéces Medcna: Cassfcação de sub-tpos de doenças (dabetes câncer etc) Admnstração/Marketng Segmentação de centes de acordo com perfs de consumo

5 Métodos cásscos para agrupamentos Base dos métodos cásscos: Medda de smardade / dssmardade Agortmos de Agrupamento Defnção do número de custers

6 Meddas de dssmardade Dstânca Eucdana: [ 2... p ]' d( 2 ) p ( 2 ) 2 [ ]' [ ] / Dstânca cty-bock ou Manhattan: d( p 2) 2 Essas meddas são sensíves à dferença de escaas entre varáves dstntas: E: IDH (0 a 00) e PIB (R$ bhões)

7 Dstânca de Mahaanobs: [ ]' S [ / 2 d( 2) 2 2] onde S é matrz de covarânca da amostra Dstânca padronzada: atenua o efeto da dferença de escaas ( 2 22 ) ( 2 )

8 Coefcente de correação near: ) )( ( ) ( ) ( s s n p s p p p p

9 Agortmos de agrupamento Prncípo: Formação de custers buscando-se: mamzar dferenças entre custers mnmzar varações ntra-custers Varação entre custers Varação ntra custers

10 Herárqucos Agomeratvos Dvsvos Casses de métodos Não-herárqucos K-medas (K-means) Baseados em msturas de dstrbuções

11 Métodos agomeratvos. O processo começa com n custers cada um contendo uma observação. 2. A cada teração o par de custers mas prómos entre s são combnados e passam a consttur um novo custer. 3. O agortmo pára quando há apenas um custer contendo todas as observações.

12 Métodos agomeratvos mas comuns:. Método de gação smpes (Snge nkage): Medda de smardade entre dos custers é defnda pea menor dstânca de quaquer ponto do º custer para quaquer ponto do 2º custer. 2. Método de gação competa (Compete nkage): Medda de smardade entre dos custers é defnda pea maor dstânca de quaquer ponto do º custer para quaquer ponto do 2º custer.

13 3. Método da méda das dstâncas (Average nkage): Medda de smardade entre dos custers é defnda pea méda das dstâncas de todos os pontos do º custer em reação aos pontos do 2º custer. 4. Método do centróde (Centrod method): Medda de smardade entre dos custers é defnda pea dstânca entre os pontos médos do º e 2º custers.

14 gação smpes gação competa méda das dstâncas centróde

15 5. Método de Ward (Ward s method): Também denomnado método da mínma varânca. Medda de dstânca entre dos custers é a soma das dstâncas ao quadrado entre os dos custers: p n k k n k k n k p k n k p k n k n k k p k n n n n SS SS SS C C d n n SS n SS ) ( ) ( k : vaor para a varáve p na observação pertencente ao custer SS : soma dos erros quadrados dentro do custer SST : soma tota dos erros quadrados (agrupando os custers e

16 Método de Ward SS SS 2 SS 2 d( C C ) SS ( SS SS )

17 Varáves: PIB per capta % popuação trabahando na agrcutura Países: B (Begum) DK (Denmark) D (Germany) GR (Greece) E (Span) F (France) IRL (Ireand) I (Itay) L (Luemburg) NL (Netherands) P (Portuga) UK (U.Kngdom)

18

19 Método não-herárquco: k-médas. Prmeramente escohem-se k centródes chamados de sementes ou protótpos para se ncazar o processo de partção; 2. Cada eemento do conunto de dados é comparado com cada centróde nca através da dstânca deseada (usuamente Eucdana). O eemento é aocado ao custer de menor dstânca 3. Após apcar o passo 2 para todos os n eementos amostras atuaza-se os vaores dos centródes de todos os grupos formados e repete-se o passo 2 consderando os centródes desses novos grupos. 4. Os passos 2 e 3 são repetdos até que nenhum dos eementos amostras sea reaocado.

20 Crtéros para defnção das sementes ncas:. Métodos agomeratvos Utza-se um método agomeratvo para obter os k agrupamentos ncas; em seguda cacuam-se os pontos médos nesses k agrupamentos. 2. Escoha aeatóra k eementos amostras são sorteados para formar as sementes ncas. P. E. função kmeans do R usa essa opção como defaut. Forma mas robusta: roda-se o agortmo competo m vezes (cada qua com k sementes ncas) ao fna escohe-se o agrupamento com o menor erro quadrado (menor soma dos quadrados das dstâncas entre os centródes e os respectvos pontos pertencentes ao custer correspondente) 3. Escoha dos k vaores mas dscrepantes

21 Um crtéro para defnção de k: Teste dferentes vaores de k medndo o decréscmo na dstânca méda dos pontos aos seus respectvos centrodes à medda em que k aumenta A dstânca méda ca rapdamente até o vaor adequado de k; a partr daí se atera pouco.

22 Um crtéro para defnção de k: Eempo: Fonte: J. Leskovec A. Raaraman. Custerng Agorthms. Stanford Unversty.

23 Métodos baseados em msturas de dstrbuções de probabdade Assume-se que os dados provêm de uma ou mas casses Assume-se que cada casse possu uma dstrbução de probabdade (p. e. Norma mutvarada) com parâmetros desconhecdos Dado um número k de casses os parâmetros das casses são austados através de métodos de máma verossmhança ou máma densdade a posteror Cada ponto (da amostra ou novo) é desgnado à casse com maor densdade de probabdade. A quantdade de casses é usuamente defnda através de meddas de reguardade (AIC BIC etc) ou através de testes de hpóteses Na nguagem R: pacote mcust

24 Eempo: Data set Irs vrgnca Varáves: comprmento da sépaa e comprmento da pétaa 49 espécmes observados Probema: uma ou duas subpopuações? custer 2 custers

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos Curso de extensão, MMQ IFUSP, feverero/4 Alguns exercíco báscos I Exercícos (MMQ) Uma grandeza cujo valor verdadero x é desconhecdo, fo medda três vezes, com procedmentos expermentas dêntcos e, portanto,

Leia mais

Algarismos Significativos Propagação de Erros ou Desvios

Algarismos Significativos Propagação de Erros ou Desvios Algarsmos Sgnfcatvos Propagação de Erros ou Desvos L1 = 1,35 cm; L = 1,3 cm; L3 = 1,30 cm L4 = 1,4 cm; L5 = 1,7 cm. Qual destas meddas está correta? Qual apresenta algarsmos com sgnfcado? O nstrumento

Leia mais

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo 3 Metodologa de Avalação da Relação entre o Custo Operaconal e o Preço do Óleo Este capítulo tem como objetvo apresentar a metodologa que será empregada nesta pesqusa para avalar a dependênca entre duas

Leia mais

CAPÍTULO 2 - Estatística Descritiva

CAPÍTULO 2 - Estatística Descritiva INF 16 Prof. Luz Alexandre Peternell CAPÍTULO - Estatístca Descrtva Exercícos Propostos 1) Consderando os dados amostras abaxo, calcular: méda artmétca, varânca, desvo padrão, erro padrão da méda e coefcente

Leia mais

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA CAPÍTULO DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA. A MÉDIA ARITMÉTICA OU PROMÉDIO Defnção: é gual a soma dos valores do grupo de dados dvdda pelo número de valores. X x Soma dos valores de x número de

Leia mais

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência. MODELO DE REGRESSÃO DE COX Os modelos de regressão paramétrcos vstos anterormente exgem que se suponha uma dstrbução estatístca para o tempo de sobrevvênca. Contudo esta suposção, caso não sea adequada,

Leia mais

Análise Discriminante

Análise Discriminante MAE 0330 ANÁLISE MULTIVARIADA DE DADOS Anáse Dscrmnante Júa M Pavan Soer [email protected] Sem/06 Anáse Mutvarada de Dados G Varáves Undades Amostras j j j n n n nj n nx(+) G j j n n n nj n n=n +n Objetvos:

Leia mais

Estatística II Antonio Roque Aula 18. Regressão Linear

Estatística II Antonio Roque Aula 18. Regressão Linear Estatístca II Antono Roque Aula 18 Regressão Lnear Quando se consderam duas varáves aleatóras ao mesmo tempo, X e Y, as técncas estatístcas aplcadas são as de regressão e correlação. As duas técncas estão

Leia mais

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA Análse de Regressão Profa Alcone Mranda dos Santos Departamento de Saúde Públca UFMA Introdução Uma das preocupações estatístcas ao analsar dados, é a de crar modelos que explctem estruturas do fenômeno

Leia mais

Análise Exploratória de Dados

Análise Exploratória de Dados Análse Exploratóra de Dados Objetvos Análse de duas varáves quanttatvas: traçar dagramas de dspersão, para avalar possíves relações entre as duas varáves; calcular o coefcente de correlação entre as duas

Leia mais

Disciplina: Análise Multivariada I Prof. Dr. Admir Antonio Betarelli Junior AULA 5

Disciplina: Análise Multivariada I Prof. Dr. Admir Antonio Betarelli Junior AULA 5 Dscna: Anáse Mutvaraa I Prof. Dr. Amr Antono Betare Junor AULA 5 ANÁLISE DE AGRUPAMENTO (AA) Procementos exoratóros são bem útes no entenmento a natureza comexa e reação mutvaraa. Encontrar nos aos uma

Leia mais

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental. Prof. Lorí Val, Dr. [email protected] http://www.mat.ufrgs.br/~val/ É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Numa relação expermental os valores de uma das

Leia mais

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas 3.6. Análse descrtva com dados agrupados Em algumas stuações, os dados podem ser apresentados dretamente nas tabelas de frequêncas. Netas stuações devemos utlzar estratégas específcas para obter as meddas

Leia mais

2 Incerteza de medição

2 Incerteza de medição 2 Incerteza de medção Toda medção envolve ensaos, ajustes, condconamentos e a observação de ndcações em um nstrumento. Este conhecmento é utlzado para obter o valor de uma grandeza (mensurando) a partr

Leia mais

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha) Estatístca p/ Admnstração II - Profª Ana Cláuda Melo Undade : Probabldade Aula: 3 Varável Aleatóra. Varáves Aleatóras Ao descrever um espaço amostral de um expermento, não especfcamos que um resultado

Leia mais

Associação entre duas variáveis quantitativas

Associação entre duas variáveis quantitativas Exemplo O departamento de RH de uma empresa deseja avalar a efcáca dos testes aplcados para a seleção de funconáros. Para tanto, fo sorteada uma amostra aleatóra de 50 funconáros que fazem parte da empresa

Leia mais

Regressão Múltipla. Parte I: Modelo Geral e Estimação

Regressão Múltipla. Parte I: Modelo Geral e Estimação Regressão Múltpla Parte I: Modelo Geral e Estmação Regressão lnear múltpla Exemplos: Num estudo sobre a produtvdade de trabalhadores ( em aeronave, navos) o pesqusador deseja controlar o número desses

Leia mais

7 - Distribuição de Freqüências

7 - Distribuição de Freqüências 7 - Dstrbução de Freqüêncas 7.1 Introdução Em mutas áreas há uma grande quantdade de nformações numércas que precsam ser dvulgadas de forma resumda. O método mas comum de resumr estes dados numércos consste

Leia mais

Estudo quantitativo do processo de tomada de decisão de um projeto de melhoria da qualidade de ensino de graduação.

Estudo quantitativo do processo de tomada de decisão de um projeto de melhoria da qualidade de ensino de graduação. Estudo quanttatvo do processo de tomada de decsão de um projeto de melhora da qualdade de ensno de graduação. Rogéro de Melo Costa Pnto 1, Rafael Aparecdo Pres Espíndula 2, Arlndo José de Souza Júnor 1,

Leia mais

MODELOS DE REGRESSÃO PARAMÉTRICOS

MODELOS DE REGRESSÃO PARAMÉTRICOS MODELOS DE REGRESSÃO PARAMÉTRICOS Às vezes é de nteresse nclur na análse, característcas dos ndvíduos que podem estar relaconadas com o tempo de vda. Estudo de nsufcênca renal: verfcar qual o efeto da

Leia mais

Classificação e Pesquisa de Dados

Classificação e Pesquisa de Dados Classcação por Trocas Classcação e Pesqusa de Dados Aula 05 Classcação de dados por Troca:, ntrodução ao Qucksort UFRGS INF01124 Classcação por comparação entre pares de chaves, trocando-as de posção caso

Leia mais

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro UNIVERIDADE DE ÃO PAULO FACULDADE DE ECONOMIA, ADMINITRAÇÃO E CONTABILIDADE DE RIBEIRÃO PRETO DEPARTAMENTO DE ADMINITRAÇÃO RAD1507 Estatístca Aplcada à Admnstração I Prof. Dr. Evandro Marcos adel Rbero

Leia mais

Problemas Propostos. Frações mássicas, volúmicas ou molares. Estequiometria.

Problemas Propostos. Frações mássicas, volúmicas ou molares. Estequiometria. Elementos de Engenhara Químca I II. Frações e Estequometra (problemas resolvdos) Problemas Propostos. Frações másscas, volúmcas ou molares. Estequometra.. Em 5 moles de Benzeno (C 6 H 6 ) quanto é que

Leia mais

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 014 Estatístca Descrtva e Análse Exploratóra Etapas ncas. Utlzadas para descrever e resumr os dados. A dsponbldade de uma grande quantdade de dados e de

Leia mais

Modelagem do crescimento de clones de Eucalyptus via modelos não lineares

Modelagem do crescimento de clones de Eucalyptus via modelos não lineares Modelagem do crescmento de clones de Eucalyptus va modelos não lneares Joselme Fernandes Gouvea 2 Davd Venanco da Cruz 3 Máco Augusto de Albuquerque 3 José Antôno Alexo da Slva Introdução Os fenômenos

Leia mais

Análise de influência

Análise de influência Análse de nfluênca Dzemos que uma observação é nfluente caso ela altere, de forma substancal, alguma propredade do modelo ajustado (como as estmatvas dos parâmetros, seus erros padrões, valores ajustados...).

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Val, Dr. [email protected] http://www.mat.ufrgs.br/~val/ 1 É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Numa relação expermental os valores de uma das

Leia mais

Estatística Espacial: Dados de Área

Estatística Espacial: Dados de Área Estatístca Espacal: Dados de Área Dstrbução do número observado de eventos Padronzação e SMR Mapas de Probabldades Mapas com taxas empírcas bayesanas Padronzação Para permtr comparações entre dferentes

Leia mais

Programa de Certificação de Medidas de um laboratório

Programa de Certificação de Medidas de um laboratório Programa de Certfcação de Meddas de um laboratóro Tratamento de dados Elmnação de dervas Programa de calbração entre laboratóros Programa nterno de calbração justes de meddas a curvas Tratamento dos resultados

Leia mais

2 Principio do Trabalho Virtual (PTV)

2 Principio do Trabalho Virtual (PTV) Prncpo do Trabalho rtual (PT)..Contnuo com mcroestrutura Na teora que leva em consderação a mcroestrutura do materal, cada partícula anda é representada por um ponto P, conforme Fgura. Porém suas propredades

Leia mais

MODELO RECEPTOR MODELO RECEPTOR MODELO RECEPTOR. Princípio do modelo:

MODELO RECEPTOR MODELO RECEPTOR MODELO RECEPTOR. Princípio do modelo: MODELO RECEPTOR Não modela a dspersão do contamnante. MODELO RECEPTOR Prncípo do modelo: Atacar o problema de dentfcação da contrbução da fonte em ordem nversa, partndo da concentração do contamnante no

Leia mais

O problema da superdispersão na análise de dados de contagens

O problema da superdispersão na análise de dados de contagens O problema da superdspersão na análse de dados de contagens 1 Uma das restrções mpostas pelas dstrbuções bnomal e Posson, aplcadas usualmente na análse de dados dscretos, é que o parâmetro de dspersão

Leia mais

5 Relação entre Análise Limite e Programação Linear 5.1. Modelo Matemático para Análise Limite

5 Relação entre Análise Limite e Programação Linear 5.1. Modelo Matemático para Análise Limite 5 Relação entre Análse Lmte e Programação Lnear 5.. Modelo Matemátco para Análse Lmte Como fo explcado anterormente, a análse lmte oferece a facldade para o cálculo da carga de ruptura pelo fato de utlzar

Leia mais

ANÁLISE DA QUALIDADE NO SETOR DE SERVIÇOS SEGUNDO O MÉTODO DE AVALIAÇÃO SERVQUAL

ANÁLISE DA QUALIDADE NO SETOR DE SERVIÇOS SEGUNDO O MÉTODO DE AVALIAÇÃO SERVQUAL ANÁLISE DA QUALIDADE NO SETOR DE SERVIÇOS SEGUNDO O MÉTODO DE AVALIAÇÃO SERVQUAL QUALITY ANALYSIS IN THE SERVICES SECTOR ACCORDING TO THE METHOD O SERVQUAL EVALLUATION Professora MSc. áva Aparecda Retz

Leia mais

a média populacional do i-ésimo tratamento; o efeito do i-ésimo tratamento na variável dependente Y e mede o afastamento da média µ

a média populacional do i-ésimo tratamento; o efeito do i-ésimo tratamento na variável dependente Y e mede o afastamento da média µ UNIVERSIDADE ESTADUAL PAULISTA FACULDADE DE CIÊNCIAS AGRÁRIAS E VETERINÁRIAS CAMPUS DE JABOTICABAL ª PROVA DE ESTATÍSTICA EXPERIMENTAL - MEDICINA VETERINÁRIA NOME: DATA / / ª QUESTÃO (5,5): Vnte e cnco

Leia mais

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16%

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16% Análse de Rsco 1 RISCO Rsco possbldade de perda. Quanto maor a possbldade, maor o rsco. Exemplo: Empresa X va receber $ 1.000 de uros em 30 das com títulos do governo. A empresa Y pode receber entre $

Leia mais

4.1. Medidas de Posição da amostra: média, mediana e moda

4.1. Medidas de Posição da amostra: média, mediana e moda 4. Meddas descrtva para dados quanttatvos 4.1. Meddas de Posção da amostra: méda, medana e moda Consdere uma amostra com n observações: x 1, x,..., x n. a) Méda: (ou méda artmétca) é representada por x

Leia mais

COMBUSTÍVEIS E COMBUSTÃO

COMBUSTÍVEIS E COMBUSTÃO COMBUSTÍVEIS E COMBUSTÃO PROF. RAMÓN SILVA Engenhara de Energa Dourados MS - 2013 CHAMAS DIFUSIVAS 2 INTRODUÇÃO Chamas de dfusão turbulentas tpo jato de gás são bastante comuns em aplcações ndustras. Há

Leia mais

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

DEFINIÇÃO - MODELO LINEAR GENERALIZADO DEFINIÇÃO - MODELO LINEAR GENERALIZADO 1 Um modelo lnear generalzado é defndo pelos seguntes três componentes: Componente aleatóro; Componente sstemátco; Função de lgação; Componente aleatóro: Um conjunto

Leia mais