2 Processo de Agrupamentos
|
|
|
- Cacilda Tuschinski Fonseca
- 8 Há anos
- Visualizações:
Transcrição
1 20 2 Processo de Agrupamentos A análise de agrupamentos pode ser definida como o processo de determinação de k grupos em um conjunto de dados. Para entender o que isso significa, observe-se a Figura. Y X Figura :Gráfico ilustrativo de dados agrupados em quatro grupos. Pode-se observar na distribuição acima a presença de quatro grupos distintos. O processo automático de descobrimento desses grupos é o principal objetivo da análise de agrupamentos, onde basicamente se buscam grupos de objetos (dados) similares entre si. O processo de agrupamento de dados pode ser divido em três etapas que serão abordados nas seções subseqüentes: Seleção e tratamento de dados Agrupamento de dados Análise dos resultados
2 2 2.. Seleção e Tratamento de dados Na seleção de dados o objetivo é etrair do total de variáveis da base de dados apenas os atributos que possuam maior relevância ao processo de agrupamento de dados, eliminando atributos irrelevantes ou redundantes. Esse passo é importante para diminuir o tempo de processamento do processo de agrupamento de dados como também para evitar que ele seja prejudicado por atributos irrelevantes. No tratamento dos dados o objetivo é preparar esses dados de modo a assegurar sua qualidade e eficiência no processo de agrupamento. Os itens mais importantes para o tratamento dos dados são (Doni, 2004): Eliminação de dados duplicados ou corrompidos dados duplicados ou corrompidos são removidos. Tratamento de outliers dados com valores inválidos significantemente fora do esperado para uma variável são removidos. Valores faltantes ou inválidos dados faltando valor ou com valores inválidos são removidos do conjunto selecionado. Transformação dos dados essa etapa pode ser subdividida em duas tarefas: Tratamento de Atributos - adequar os diferentes tipos de atributos para o processo de agrupamento. Essa tarefa é descrita em mais detalhes no item Tratamento de Atributos. Normalização - tratar dados com atributos de diferentes dimensões, quando se pretende que eles tenham a mesma influência no processo. Essa tarefa é descrita em mais detalhes no item Normalização Tratamento de Atributos O primeiro objetivo dessa etapa consiste em transformar os dados de maneira que seja possível realizar o agrupamento de dados de forma adequada.
3 22 Uma base de dados pode conter dados numéricos ou categóricos sendo necessário saber lidar adequadamente com cada um destes casos. Em (Novaes, 2002) o autor divide os tipos de atributos em 6 classes. Entretanto, para um problema real de agrupamento de dados podem ser considerados apenas duas grandes classes de atributos, a saber: Atributos Quantitativos Epressam numericamente a medida de uma dada variável. Estes podem ser de dois tipos: Contínuos: atributos assumem valores reais. Eemplo: salário, renda familiar, altura, etc. Discretas: atributos assumem valores inteiros. Eemplo: idade, número de empregados, cpf, etc. Atributos Categóricos São variáveis não numéricas de valores finitos. Podem assumir dois tipos: Binários: possuem apenas dois tipos de valor. Eemplo: seo (masculino ou feminino), hipertensão (sim ou não), fumante (sim ou não), etc. Nominais: possuem mais do que dois tipos de valor. Eemplo: escolaridade (analfabeto, primeiro grau, segundo grau ou terceiro grau), cor de pele (branca, preta, outra), situação conjugal (casado, solteiro, separado ou viúvo), etc. Os atributos categóricos necessitam de uma representação numérica para que o algoritmo de agrupamento de dados consiga operar sobre os seus valores. Dessa forma a variável seo poderia assumir os valores e 2 para representar respectivamente os valores masculino e feminino Normalização dos Atributos A normalização dos dados é importante para garantir que, ao se efetuar o agrupamento, cada variável tenha o mesmo peso, eercendo a mesma influência
4 23 na eecução do algoritmo. Essa influência acontece predominantemente ao se calcular as medidas de semelhança ou dessemelhança entre os dados, conhecida como medidas de proimidades que serão descritas em mais detalhes na próima seção. Sem a normalização, as variáveis com maior escala se tornam dominantes. Supondo que a medida de proimidade adotada seja a distância euclidiana e o número de variáveis seja igual a dois, a distância entre dois pontos será dada pela fórmula abaio (Cook, 2004): 2 ( µ ) + ( ) 2 DE = (2.) 2 µ 2 onde i e µ i são respectivamente o valor do ponto e média da i-ésima variável. Caso tenha uma ordem de grandeza muito maior que 2, a distância será dominada pela primeira variável. Para evitar esse problema, é aconselhável que se normalize os dados. As técnicas mais utilizadas são (Reed, 999): z-score ' i = onde i, ( i ) σ ésimo dado, e (2.2) ' i são, respectivamente, o valor e o valor normalizado do i- e σ são, respectivamente, a média e o desvio padrão dos dados para cada atributo. Nesse método os dados normalizados possuem média igual a 0 e variância igual a. Esse método é útil quando se trabalha com uma distribuição de dados com médias diferentes ou variâncias diferentes. min-ma cutoff ' i min i = (2.3) ma min onde i, ' i são, respectivamente, o valor e o valor normalizado do i- ésimo dado, e min e ma são, respectivamente, o valor mínimo e o valor máimo dos dados para cada atributo.
5 24 Nesse método os dados normalizados estão distribuídos linearmente entre 0 e. Esse método é mais simples e útil quando se trabalha com um conjunto de dados com uma distribuição linear Agrupamento de dados A segunda etapa do processo de análise de agrupamentos é o agrupamento de dados. Esta etapa tem como objetivo dividir um determinado conjunto de dados em grupos com características similares entre si. Os algoritmos de agrupamento de dados podem ser classificados em duas grandes classes de métodos (Costa, 999): Métodos Hierárquicos Algoritmos Aglomerativos Algoritmos Divisivos Métodos Particionais Algoritmos Eclusivos Algoritmos Não Eclusivos Os métodos de agrupamento de dados são abordados em detalhes no capítulo 4. Em geral esses algoritmos buscam dados similares entre si através de uma medida de proimidade, conforme visto a seguir Medidas de Proimidade A medida de proimidade pode ser definida como a medida de Similaridade ou Dissimilaridade entre os dados (Koerich, 2005), abordados com mais detalhes nas próimas seções. Em (Viana, 2004), a Matriz de Similaridades é uma matriz de dimensão n n contendo as medidas de similaridades/dissimilaridades entre os n objetos. Essa matriz é bastante utilizada em diversos algoritmos de agrupamento de dados.
6 Dissimilaridade Dissimilaridade é a medida de diferença entre dois objetos. Eistem várias maneiras possíveis de se obter essa medida. Métricas muito conhecidas, como a distância Euclidiana e a distância de Manhattan, podem e são utilizadas, mas medidas de dissimilaridade baseadas no Coeficiente de Correlação de Pearson são muito úteis quando o objetivo é o agrupamento de dados, pois ele mede o nível de relacionamento entre duas variáveis (Kauffman, 990). O Coeficiente de Correlação de Pearson R(, y) é dado por: R (, y) = p ( )( ) i= i µ yi µ y p 2 p 2 ( i µ ) ( yi µ y ) i= i= (2.4) onde e y e i e y i são, respectivamente, os valores dos i-ésimos atributos dos dados e y, e µ e µ y são, respectivamente, os valores de média dos dados e y. Os valores do coeficiente de correlação de Pearson estão no intervalo - R. Quanto mais próimo de, mais correlacionados estão os dados, da mesma forma que, quanto mais próimos de -, menos correlacionados estão os dados. As Medidas de Dissimilaridade baseadas no Coeficiente de Correlação de Pearson são (Kauffman, 990): d (, y) = ( R(, y) ) (, y) = R( y) d, 2 (2.5) (2.6) onde d(, y) é a medida de dissimilaridade entre os dados e y. Com a epressão 2.5, variáveis com uma correlação positiva alta terão um coeficiente de dissimilaridade perto de zero, enquanto que variáveis com uma correlação negativa forte serão consideradas muito dissimilares. Em outras aplicações pode ser preferível usar a epressão 2.6 (Kauffman, 990), onde variáveis com uma correlação negativa ou positiva alta receberão um coeficiente de dissimilaridade perto de zero, e serão considerados muito dissimilares quando o coeficiente de correlação for próimo de zero. A escolha de uma das duas epressões depende muito do problema e do entendimento que se tem sobre a base de dados. Pode ser conveniente usar a
7 26 epressão 2.6 quando se deseja que variáveis muito correlacionadas ou pouco correlacionadas sejam similares. Já na epressão 2.5, a relação entre a correlação e a dissimilaridade é linear. Comparações entre as duas equações sobre dados reais mostraram que a equação 2.5 apresentou resultados bem melhores, embora a equação 2.6 tenha apresentado resultados relativamente bons (Kauffman, 990) Similaridade Similaridade é a medida de igualdade entre dois objetos. Tipicamente a similaridade s entre dois objetos e y assume valores entre 0 e, onde 0 epressa que os dois objetos não são similares, enquanto que epressa máima similaridade. Geralmente são consideradas as seguintes condições para se definir similaridade: 0 s(, y) s(, ) = s(, y) = s(y, ) Como as medidas de similaridades não podem ser calculadas diretamente através do coeficiente de correlação de Pearson, é necessário efetuar algumas transformações a fim de se respeitar as condições de similaridade (Kauffman, 990). Eistem essencialmente duas maneiras para isso, dependendo do significado dos dados e do propósito da aplicação. Supondo que variáveis com uma correlação negativa forte são variáveis muito diferentes, considere-se a epressão de similaridade abaio. s (, y) (, y) + R = (2.7) 2 onde e y são objetos em um conjunto de dados, e s(, y) e R(, y) são, respectivamente, a similaridade e o coeficiente de correlação entre e y. A epressão 2.7 indica que sempre que o coeficiente de correlação for próimo de -, a similaridade será próima de 0, enquanto que valores de correlação próimos de representam valores de similaridade próimos de. De acordo com Kauffman & Rousseeuw (990), eistem situações onde variáveis com uma correlação positiva ou negativa forte representam
8 27 essencialmente o mesmo significado. Para esses casos pode ser usada a epressão abaio: ( y) R( y) s, =, (2.8) onde e y são objetos em um conjunto de dados, s(, y) e R(, y) são, respectivamente, a similaridade e o coeficiente de correlação entre e y. A epressão 2.8 indica que para coeficiente de correlação próimo de ou -, a similaridade será próima de, enquanto que valores de correlação próimos de 0 representam objetos pouco similares, com valores de similaridade próimos de Métricas Comuns em Medidas de Proimidade As métricas mais comuns e utilizadas na prática são a distância Euclidiana, distância de Mahalanobis e distância de Manhattan (Novaes, 2002; WinIDAMS, 2005a). A Figura 2 mostra as superfícies observadas por cada uma das métricas aqui abordadas. Figura 2: Superfícies observadas pelas distâncias Euclidiana, Mahalanobis e Manhattan. A seguir são apresentadas as principais métricas de distância d entre os dados e y. Distância Euclidiana É uma medida invariante a translações, porém assume covariâncias iguais entre as classes e em geral não é invariante a transformações lineares (Costa, 999). É a métrica mais utilizada na prática (Almeida, 2004).
9 28 d T ( y) = y = ( y) ( y), (2.9) Distância de Manhattan ou city-block A distância de Manhattan é uma simplificação da distância Euclidiana, e, por isso, é uma medida mais simples e de fácil implementação. É mais eficiente para aplicações em tempo real devido a sua simplicidade (Kugler, 2003). d n ( y) =, i y i (2.0) i= onde i e y i são, respectivamente, os valores do i-ésimo atributo para os dados e y. Distância de Mahalanobis Essa métrica considera que as superfícies de cada classe são elipsóides centradas na média. No caso especial em que a covariância é zero e a variância é a mesma para todas as variáveis, as superfícies serão esferas, e a distância de Mahalanobis fica equivalente à distância Euclidiana. Essa métrica supre muita das limitações da distância Euclidiana, porém pode ser bastante difícil determinar precisamente as matrizes de covariância, e o custo computacional cresce muito com o número de variáveis envolvidas (Costa, 999). Por estas razões, em geral prefere-se usar a distância Euclidiana. d ( T T y ) = ( y) S ( y) T, (2.) onde S é a matriz de covariância dos dados que pode ser definida como (Costa, 999): S = matriz n ( s ) = ( )( ) kj n i= ik k ij j (2.2) onde k, j =... p, p é o número de atributos, ik e ij são, respectivamente, os valores do dado da linha i e coluna k e j, e k e
10 29 j são, respectivamente, as médias correspondentes dos dados ao longo das colunas k e j Análise dos resultados A análise dos resultados compreende primeiramente a avaliação da qualidade dos agrupamentos, o que pode ser observado através do gráfico da silhueta, eplicado no próimo item. É importante ressaltar que alguns métodos possuem métricas específicas para cálculo da qualidade do agrupamento. O passo seguinte é a compreensão e interpretação dos agrupamentos gerados, a fim de inferir regras ou características que epliquem cada grupo Gráfico da Silhueta O gráfico da Silhueta mede a qualidade de um agrupamento (Kauffman, 990). Sendo A o agrupamento ao qual o objeto i pertence, a dissimilaridade média do objeto i em relação a todos os outros objetos de A é dada por: a( i) = A d j A, j i ( i, j) (2.3) onde A representa o total de objetos presentes no agrupamento e d(i,j) representa a dissimilaridade entre os objetos i e j. Considere-se agora qualquer agrupamento C diferente de A. A dissimilaridade média do objeto i para todos os objetos de C será dada por: d, C ( i, C) = d( i j) j C (2.4) onde C representa o total de objetos presentes no agrupamento C e d(i,j) representa a dissimilaridade entre os objetos i e j. A menor distância de dissimilaridade entre o objeto i a um dado agrupamento A será dado por: b( i) = min d, C A ( i C) (2.5)
11 30 Considere-se como B o agrupamento C que contém a menor distância dada acima. Esse agrupamento é chamado de vizinho do objeto i e é o segundo melhor agrupamento para esse objeto. O valor de silhueta do objeto i é definido como: b( i) a( i) s( i) = ma { a( i), b( i) } (2.6) O valor de s(i) está entre - e e pode ser interpretado da seguinte forma: s(i) objeto i bem classificado no agrupamento A. s(i) 0 objeto i está entre os agrupamentos A e B. s(i) - objeto i mal classificado no agrupamento A. Está mais perto do agrupamento B do que do A. O gráfico da silhueta do agrupamento A é dado pelo gráfico da silhueta de todos os objetos pertencentes ao agrupamento A em ordem decrescente. Quanto mais próimo de, melhor é a qualidade desse agrupamento. Os valores da silhueta podem ser interpretados como se segue na tabela abaio: Tabela : Valores da Silhueta. s(i) Descrição 0,7,00 Uma estrutura forte foi encontrada. 0,5 0,70 Uma estrutura razoável for encontrada. 0,26 0,50 A estrutura é fraca e pode ser superficial. É aconselhável o uso de outros métodos para esses dados. 0,25 Nenhuma estrutura substancial foi encontrada. A Figura 3 mostra um eemplo de um gráfico da silhueta para dados agrupados em 4 grupos.
12 3 Figura 3: Gráfico da Silhueta. O eio vertical é o eio que representa os n dados enquanto que o eio horizontal é o eio dos valores da silhueta. O gráfico representa os valores de silhueta dos dados, onde os dados estão divididos por agrupamento e ordenados em ordem decrescente de valor de silhueta. Dessa forma, pode-se observar 4 agrupamentos e os seguintes valores: Total de dados: 75 Agrupamento : 20 dados / valor médio de silhueta: 0,73 Agrupamento 2: 23 dados / valor médio de silhueta: 0,75 Agrupamento 3: 7 dados / valor médio de silhueta: 0,67 Agrupamento 4: 5 dados / valor médio de silhueta: 0,8 De acordo com a tabela, todos os quatro agrupamentos apresentam uma boa estrutura.
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Conceitos básicos Classificação não-supervisionada:
Aula 7 Medidas de Distância. Profa. Elaine Faria UFU
Aula 7 Medidas de Distância Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof Andre C. P. L. F. Carvalho Agradecimentos Ao professor André
A Figura 28 mostra a representação gráfica dos dados presentes na base de dados fcmdata do Matlab de dimensão 140x2 dividida em 2 grupos.
84 5 Estudos de Caso A seguir serão apresentados três estudos de caso. Os dois primeiros estudos de caso têm por objetivo demonstrar a facilidade de uso do aplicativo, e o último estudo de caso é focado
Análise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com [email protected] Turma: 2º / 2016 1 Agenda
Aprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos
Estatística Descritiva
C E N T R O D E M A T E M Á T I C A, C O M P U T A Ç Ã O E C O G N I Ç Ã O UFABC Estatística Descritiva Centro de Matemática, Computação e Cognição March 17, 2013 Slide 1/52 1 Definições Básicas Estatística
Metodologia Aplicada a Computação.
Metodologia Aplicada a Computação [email protected] Pré-processamento de dados Técnicas utilizadas para melhorar a qualidade dos dados; Eliminam ou minimizam os problemas como ruídos, valores incorretos,
Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters
Universidade Técnica de Lisboa INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO Informática e Sistemas de Informação Aplicados em Economia Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters Descoberta
Matemática I Tecnólogo em Construção de Edifícios e Tecnólogo em Refrigeração e Climatização
35 Funções A função é um modo especial de relacionar grandezas. Por eemplo, como escrevemos o deslocamento de um móvel em movimento retilíneo variado dependendo do tempo? E se o móvel está em movimento
PRÁTICA 8. A Distância Euclidiana entre dois vetores n-dimensionais x e y é definida como o escalar: d = norm(x y)
PRÁTICA 8 1) Medidas de Distância. A Distância Euclidiana entre dois vetores n-dimensionais e y é definida como o escalar: d 1 2 2 [( y ) + + ( y ) ] 2 e (, y) = y = y = 1 1 L n n esta epressão é a Norma
SCC0173 Mineração de Dados Biológicos
SCC0173 Mineração de Dados Biológicos Preparação de Dados: Parte B Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões: dos originais gentilmente
1 Estatística Descritiva
1 Estatística Descritiva A estatística descritiva é parte da estatística que lida com a organização, resumo e apresentação de dados. Esta é feita por meio de: Tabelas; Gráficos; Medidas Descritivas (média,
SCC5895 Análise de Agrupamento de Dados
SCC5895 Análise de Agrupamento de Dados Representação de Dados e Medidas de Proimidade Prof. Eduardo R. Hruschka PPG-CCMC / ICMC / USP Créditos O material a seguir consiste de adaptações e etensões dos
Análise de Agrupamento. Cluster Analysis
Análise de Agrupamento Cluster Analysis Objetivo Classificar objetos, itens ou indivíduos de acordo com as suas semelhanças. Os objetos semelhantes são alocados em um mesmo grupo e, portanto, aqueles que
Universidade Federal de Mato Grosso - UFMT Probabilidade e Estatística
Universidade Federal de Mato Grosso - UFMT Probabilidade e Estatística 1 Introdução Definição: Estatística é um conjunto de conceitos e métodos científicos para coleta, organização, descrição, análise
Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU
Aula 6 Mineração Streams Representação dos Dados Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof. Andre C. P. L. F. Carvalho Agradecimentos
Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas
Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os
Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:
Back Propagation Fatores importantes para a modelagem da Rede Neural: Seleção de variáveis; veis; Limpeza dos dados; Representação das variáveis veis de entrada e saída; Normalização; Buscando melhor Generalização
SCC0173 Mineração de Dados Biológicos
SCC073 Mineração de Dados Biológicos Análise Exploratória de Dados Parte A: Revisão de Estatística Descritiva Elementar Prof. Ricardo J. G. B. Campello SCC / ICMC / USP Tópicos Análise Exploratória de
MEDIDAS E INCERTEZAS
MEDIDAS E INCERTEZAS O Que é Medição? É um processo empírico que objetiva a designação de números a propriedades de objetos ou a eventos do mundo real de forma a descrevêlos quantitativamente. Outra forma
Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO. Junho de 2017
Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO AULA 4 02/06/17 Prof a Lilian M. Lima Cunha Junho de 2017 DEFINIÇÃO Análise de conglomerados (Cluster Analysis) é uma das técnicas de análise multivariada
VERIFICAÇÃO DA ADEQUAÇÃO DO MODELO DE ANÁLISE DE VARIÂNCIA ANÁLISE DE RESÍDUOS
VERIFICAÇÃO DA ADEQUAÇÃO DO MODELO DE ANÁLISE DE VARIÂNCIA ANÁLISE DE RESÍDUOS Conforme foi apresentado anteriormente, o modelo de análise de variância assume que as observações são independentes e normalmente
Métodos Empíricos de Pesquisa I. } Análise Bidimensional
Métodos Empíricos de Pesquisa I } Análise Bidimensional 1 Aula de hoje } Temas } Associação entre variáveis } Qualitativas e Quantitativas } Covariância: conceitos e propriedades } Coeficiente de correlação
Redes Neurais (Inteligência Artificial)
Redes Neurais (Inteligência Artificial) Aula 16 Aprendizado Não-Supervisionado Edirlei Soares de Lima Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest
Realimentação de Relevância
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Ciclo de realimentação onde uma consulta q recebida do usuário é transformada em uma consulta modificada
Estatística I Aula 3. Prof.: Patricia Maria Bortolon, D. Sc.
Estatística I Aula 3 Prof.: Patricia Maria Bortolon, D. Sc. Estatística: Prof. André Carvalhal Dados quantitativos: medidas numéricas Propriedades Numéricas Tendência Central Dispersão Formato Média Mediana
Consultas por Similaridade em Domínios de Dados Complexos
Consultas por Similaridade em Domínios de Dados Complexos Guilherme Felipe Zabot Orientador: Profº Dr Caetano Traina Jr Roteiro Objetivo Introdução Dados Complexos Representação de Dados Complexos Extração
Prof. Dr. Lucas Barboza Sarno da Silva
Prof. Dr. Lucas Barboza Sarno da Silva Medidas de grandezas físicas Valor numérico e sua incerteza, unidades apropriadas Exemplos: - Velocidade (10,02 0,04) m/s - Tempo (2,003 0,001) µs - Temperatura (273,3
Aprendizado de Máquina
Aprendizado de Máquina André C. P. L. F. de Carvalho Posdoutorando: Isvani Frias-Blanco ICMC-USP Agrupamento de dados Tópicos Agrupamento de dados Dificuldades em agrupamento Algoritmos de agrupamento
MATEMÁTICA I FUNÇÕES REAIS DE UMA VARIÁVEL REAL MATEMÁTICA I - PROF. EDÉZIO 1
MATEMÁTICA I FUNÇÕES REAIS DE UMA VARIÁVEL REAL MATEMÁTICA I - PROF. EDÉZIO 1 EMENTA Funções Reais de uma Variável Real Principais Funções Elementares e suas Aplicações Matrizes Livro Teto: Leithold, Louis.
Estatística Descritiva
Probabilidade e Estatística Prof. Dr.Narciso Gonçalves da Silva http://paginapessoal.utfpr.edu.br/ngsilva Estatística Descritiva Distribuição de frequência Para obter informações de interesse sobre a característica
TIPOS DE VARIÁVEIS E RESUMO DE DADOS
TIPOS DE VARIÁVEIS E RESUMO DE DADOS Prof. Dr. Lucas Santana da Cunha email: [email protected] http://www.uel.br/pessoal/lscunha/ 26 de março de 2018 Londrina 1 / 32 Definição Tipos de variáveis Definição
Professora: Cira Souza Pitombo. Disciplina: Aplicações de técnicas de análise de dados
UNIVERSIDADE FEDERAL DA BAHIA ESCOLA POLITÉCNICA MESTRADO EM ENGENHARIA AMBIENTAL E URBANA Apresentação do Curso Introdução Professora: Cira Souza Pitombo Disciplina: Aplicações de técnicas de análise
SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos
Departamento de Engenharia Elétrica - EESC-USP SEL-0339 Introdução à Visão Computacional Aula 7 Reconhecimento de Objetos Prof. Dr. Marcelo Andrade da Costa Vieira Prof. Dr. Adilson Gonzaga [email protected]
Estatística Computacional Profª Karine Sato da Silva
Estatística Computacional Profª Karine Sato da Silva [email protected] Análise Exploratória dos Dados Com o advento da informática o mundo encheu-se de dados. Dados de funcionários, clientes,
Análise Discriminante
Universidade Técnica de Lisboa INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO Informática e Sistemas de Informação Aplicados em Economia Análise Discriminante Análise Discriminante 1 Análise discriminante - A
Instituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI
1 Sumário 2 Introdução Técnicas de ESDA Matrizes de Proximidade Espacial Média Espacial Móvel (m i ) Indicadores Globais de Autocorrelação Espacial Índices Globais de Moran (I), Geary (C) e Getis e Ord
Organização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters
Organização. Introdução 2. Medidas de Similaridade 3. Métodos de Agrupamento (métodos hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters Métodos de Partição Cada exemplo
CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte
CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte 4.3 Medidas de posição 4.4 Medidas de dispersão 4.5 Separatrizes Prof. franke 2 Vimos que a informação contida num conjunto de dados pode ser resumida
TIPOS DE VARIÁVEIS E RESUMO DE DADOS
TIPOS DE VARIÁVEIS E RESUMO DE DADOS Lucas Santana da Cunha [email protected] http://www.uel.br/pessoal/lscunha/ Universidade Estadual de Londrina 24 de abril de 2017 É o que está sendo medido em uma população,
Curso de Geomática Aula 2. Prof. Dr. Irineu da Silva EESC-USP
Curso de Geomática Aula Prof. Dr. Irineu da Silva EESC-USP Sistemas de Coordenadas Determinar a posição de um ponto, em Geomática, significa calcular as suas coordenadas. Calcular as coordenadas de um
MANUAL DE REFERÊNCIA DE ANÁLISE DE CONGLOMERADOS
MANUAL DE REFERÊNCIA DE ANÁLISE DE CONGLOMERADOS INTRODUÇÃO... 2 MEDIDAS DE SIMILARIDADE [2,3]... 3 2. MEDIDAS DE CORRELAÇÃO... 4 2.2 MEDIDAS DE DISTÂNCIA... 6 2.2. TIPOS DE MEDIDAS DE DISTÂNCIA... 7 2.3
MÉTODOS DE CALIBRAÇÃO
MÉTODOS DE CALIBRAÇÃO Sinais obtidos por equipamentos e instrumentos devem ser calibrados para evitar erros nas medidas. Calibração, de acordo com o INMETRO, é o conjunto de operações que estabelece, sob
4 Cálculo de Equivalentes Dinâmicos
4 Cálculo de Equivalentes Dinâmicos 4.1. Introdução Os sistemas de potência interligados vêm adquirindo maior tamanho e complexidade, aumentando a dependência de sistemas de controle tanto em operação
4. Tensores cartesianos em 3D simétricos
4. Tensores cartesianos em D simétricos 4.1 Valores e vectores próprios ou valores e direcções principais Em D não é possível deduzir as fórmulas que determinam os valores e as direcções principais na
Clustering: k-means e Agglomerative
Tópicos Avançados em Avaliação de Desempenho de Sistemas Jackson Nunes Marco Eugênio Araújo Outubro de 2014 1 Sumário Contextualização Classificação Agrupamento (Clustering) Cenários de Aplicação Clustering
Engenharia da Qualidade I Aula 5
Engenharia da Qualidade I Aula 5 Ferramentas para o Controle e Melhoria da Qualidade Prof. Geronimo Virginio Tagliaferro 4 Diagrama de causa e efeito (diagrama de Ishikawa) O diagrama de causa e efeito
Estatística Aplicada ao Serviço Social
Estatística Aplicada ao Serviço Social Módulo 7: Correlação e Regressão Linear Simples Introdução Coeficientes de Correlação entre duas Variáveis Coeficiente de Correlação Linear Introdução. Regressão
Análise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com [email protected] Turma: 2º / 2016 1 Agenda
Estatística Descritiva
Estatística Descritiva 1 O que é Estatística A Estatística originou-se com a coleta e construção de tabelas de dados para o governo. A situação evoluiu e esta coleta de dados representa somente um dos
AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012
1 AULA 09 Regressão Ernesto F. L. Amaral 17 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução à
METODOLOGIA DE INVESTIGAÇÃO CIENTÍFICA
METODOLOGIA DE INVESTIGAÇÃO CIENTÍFICA A FASE ANALÍTICA TCOR ENGEL SILVA COSTA [email protected]/226013 2 METODOLOGIA DE INVESTIGAÇÃO CIENTÍFICA Previamente ao início da recolha de dados, o investigador
BCC201 Introdução à Programação ( ) Prof. Reinaldo Silva Fortes. Prática 04 Estruturas de Dados Homogêneas Vetores
Professor David Menotti ([email protected]) BCC0 Introdução à Programação (0-0) Prof. Reinaldo Silva Fortes Prática 0 Estruturas de Dados Homogêneas Vetores ) Escreva um programa que armazene em um vetor
CC-226 Aula 05 - Teoria da Decisão Bayesiana
CC-226 Aula 05 - Teoria da Decisão Bayesiana Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Classificador Bayesiano Considerando M classes C 1... C M. N observações x j. L atributos
Introdução à Probabilidade e à Estatística (BCN ) Prova 2 (A) 16/08/2018 Correção
Introdução à Probabilidade e à Estatística (BCN0406-1) Prova 2 (A) 16/08/2018 Correção (1.pt) 1. Dadas as seguintes probabilidades associadas à variável aleatória X: -1 1 2 p() 1/2 1/3 1/6 a) Calcule a
Mineração de Dados em Biologia Molecular
Mineração de Dados em Biologia Molecular André C. P. L. F. de Carvalho Monitor: Valéria Carvalho Agrupamento de Dados Tópicos Agrupamento de dados Análise de cluster Dificuldades em agrupamento Algoritmos
Tópicos Avançados em IA. Prof. Eduardo R. Hruschka
Tópicos Avançados em IA Prof. Eduardo R. Hruschka Créditos Este material consiste de adaptações dos originais: Elaborados por Eduardo Hruschka e Ricardo Campello de (Tan et al., 2006) de E. Keogh (SBBD
ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE A ATITUDE E O DESEMPENHO DOS ALUNOS
ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE A ATITUDE E O DESEMPENHO DOS ALUNOS Nível de significância No processo de tomada de decisão sobre uma das hipóteses levantadas num estudo, deve-se antes de tudo definir
PROBABILIDADE E DISTÂNCIAS
PROBABILIDADE E DISTÂNCIAS Definições Básicas Variável aleatória 2 Em Estatística, é muito comum ver o termo variável aleatória. Mas qual o seu significado? Existem várias definições para o termo variável
Revisão de estatística descritiva
Revisão de estatística descritiva Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais 1 Apresentação de grupos: dia 19/02 (quinta) Definir e eplicar sucintamente o funcionamento das seguintes
AULA 02 Distribuição de probabilidade normal
1 AULA 02 Distribuição de probabilidade normal Ernesto F. L. Amaral 02 de outubro de 2013 Centro de Pesquisas Quantitativas em Ciências Sociais (CPEQS) Faculdade de Filosofia e Ciências Humanas (FAFICH)
Estatística CORRELAÇÃO E REGRESSÃO LINEAR. Prof. Walter Sousa
Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter Sousa CORRELAÇÃO LINEAR A CORRELAÇÃO mede a força, a intensidade ou grau de relacionamento entre duas ou mais variáveis. Exemplo: Os dados a seguir
KDD E MINERAÇÃO DE DADOS
KDD E MINERAÇÃO DE DADOS Etapas do Processo de KDD Livro: Data Mining Conceitos, técnicas, algoritmos, Orientações e aplicações Ronaldo Goldschmidt, Eduardo Bezerra, Emmanuel Passos KDD Knowledge Discovery
