Métodos Usados para Redução e Sintetização de Dados

Tamanho: px
Começar a partir da página:

Download "Métodos Usados para Redução e Sintetização de Dados"

Transcrição

1 Métodos Usados para Redução e Sintetização de Dados Stanley Robson de M Oliveira Redução de dados Em muitos casos, datasets possuem um número elevado de atributos e de observações (objetos) Análise de dados complexa (muitos atributos): Pode ficar muito cara computacionalmente se todo o conjunto de dados (dataset) for considerado; Dependendo do tamanho do dataset, os algoritmos podem não rodar satisfatoriamente Dados Originais Síntese dos Dados Solução Sintetização de dados Redução de atributos e/ou objetos 2 Redução de dados Abordagem para redução de dados: Obter uma representação reduzida do dataset que é muito menor em volume, mas que produza os mesmos (ou quase os mesmos) resultados analíticos Estratégias para redução de dados Agregação Amostragem (Sampling) Sintetização de dados A1 A2 A3 A4 A5 A A1 A2 A3 A4 A68 Discretização e hierarquia de conceito 3 4

2 Agregação Combinar dois ou mais atributos (ou objetos) em um atributo único (ou objeto) Agregação Variação da Precipitação na Austrália Objetivo final: Redução de dados: Reduz o número de atributos ou objetos Mudança de escala (granularidade dos dados): Cidades agregadas em estados, regiões, países, etc Dados mais estáveis: Agregação de tendências nos dados para reduzir a variabilidade Desvio padrão da precipitação média mensal Desvio padrão da precipitação média anual 5 6 Dados agregados na Agricultura Na agricultura, muitos conjuntos de dados contêm variáveis com valores diários, decendiais, mensais, entre outros Esse nível de detalhe em que os dados estarão disponíveis para a análise chama-se granularidade Dados agregados na Agricultura Exemplo de Cubo de Dados: forma de visualização e interpretação dos dados no modelo multidimensional para dados acumulados de chuva nos anos de 2003 a 2006, em algumas cidades do Rio Grande do Sul Exemplo: transformação de dados relacionais em multidimensionais para dados acumulados de chuva (precipitação em mm), na Estação Granja São Pedro, RS 7 8

3 Observações Importantes A metáfora denominada CUBO é apenas uma aproximação da forma como os dados estão organizados Nós podemos representar um modelo tridimensional por um cubo, mas um modelo multidimensional pode ter mais de três dimensões hipercubo Visualizar graficamente um hipercubo é muito difícil, desta forma utiliza-se a palavra cubo como referência para qualquer modelo multidimensional Um modelo multidimensional é formado por três elementos: Fatos, dimensões e medidas Fatos Fato é uma coleção de itens de dados (valores numéricos) composta de medidas e de contexto Um fato é evolutivo; muda suas medidas com o tempo Exemplos: As vendas de cereais aumentaram em 20% nos últimos dois anos O número de veranicos no RS aumentou em 6% nos últimos 10 anos O consumo de bebidas alcóolicas aumentou, em SP, de 2005 a 2010 Os índices de criminalidade aumentaram no ano atual 50% sobre os últimos dois anos 9 10 Dimensões Membros de uma São os elementos que participam de um fato (assunto de negócio) São as possíveis formas de visualizar os dados, ou seja, são os por dos dados: Exemplo: por mês, por país, por produto As dimensões determinam o contexto de um assunto de negócios Dimensões são unidades de análise com dados agregados tempo: dados agregados em dias, meses, anos local: dados agrupados em cidade, estado, país Uma dimensão pode conter muitos membros Hierarquia de uma dimensão é uma classificação de dados dentro de uma dimensão Mês Trimestre Dia Hierarquia 1 Ano Trimestre Mês Dia Hierarquia 2 Semana Dia 11 12

4 Medidas (Variáveis) São os atributos numéricos que representam um fato Exemplo de medidas (métricas): O número de enchentes na região Nordeste; O número de unidades de produtos vendidas; A quantidade em estoque; O custo de venda; Percentagem de lucro; Número de veranicos, etc Exemplo Modelo de Compras Quando analisamos compras, aplicamos o princípio dos quatro pontos cardeais: Onde? Quem? Uma estrela no centro representando um fato; As pontas representando as dimensões Compra Quando? O quê? Elementos participantes de uma compra: Quando foi realizada a compra? Onde foi realizada a compra? Quem realizou a compra? O que foi comprado? O Modelo Estrela (Star) Exemplo de um modelo estrela para o fato: vendas Tempo Modelo Snowflake (Floco de Neve) O modelo snowflake é o resultado da decomposição de uma ou mais dimensões que possuem hierarquias entre seus membros Cidade Cliente Fatos de Vendas Localidade Cliente Tempo Fatos de Vendas Região Estado Vendedor Produto Vendedor Produto 15 16

5 Exercício Uma empresa de produtos agropecuários necessita avaliar a evolução de vendas mensal dos seus clientes, nos últimos 5 anos Considere as dimensões: Tempo, Cliente, Produto e Local As dimensões Tempo e Local devem possuir uma hierarquia de 3 níveis (cada dimensão), enquanto a dimensão Produto deve possuir uma hierarquia de 2 níveis Pede-se: Esboce o modelo estrela (hipercubo de dados) para esta empresa Esboce o modelo floco de neve para esta empresa Elabore pelo menos oito perguntas distintas que esse hipercubo de dados pode responder sobre a evolução de vendas nos últimos 5 anos Estratégias para redução de dados Agregação Amostragem (Sampling) Sintetização de dados Discretização e hierarquia de conceito Amostragem Amostragem é uma das principais técnicas empregadas para a redução de dados É geralmente usada em investigações preliminares de dados e também na análise final dos dados Estatísticos usam bastante as técnicas de amostragem porque trabalhar com o conjunto de dados completo é caro e demorado, computacionalmente Amostragem pode ser usada em mineração de dados quando o conjunto de dados, sob análise, é grande (em termos de objetos e atributos) Amostragem O princípio chave da amostragem eficaz: Uma amostra produzirá resultados de qualidade semelhantes aqueles produzidos pelo conjunto de dados completos (se a amostra for representativa) Uma amostra é representativa se ela tem aproximadamente as mesmas propriedades (de interesse) do conjunto de dados original 19 20

6 Tipos de Amostragem Amostragem Simples e c/ Reposição Amostragem Aleatória Simples (Sampling without replacement) Existe uma probabilidade igual para a seleção de qualquer item Um item é selecionado e removido da população Amostragem com Reposição (Sampling with replacement) Objetos não são removidos da população à medida em que são selecionados para a amostra O mesmo objeto pode ser selecionado mais de uma vez Amostragem Estratificada (Stratified Sampling) Separa os dados em diversas partições (estratos) Toma-se de cada partição uma amostra percentual igual à porcentagem do estrato em relação à população Conjunto de Dados Amostragem Simples Amostragem com Reposição Exemplo: Amostragem Estratificada Amostragem Estratificada Para obter uma estatística de intenção de votos para prefeito de um certo município, deseja-se uma amostragem estratificada por bairro No município em questão 25% dos eleitores são de um bairro A Supondo uma amostra de 1000 eleitores, tomam-se 25% deles, ou seja, 250 do bairro A Para os demais bairros (B, C, D, ), a seleção do número de elementos por bairro (partição), segue a mesma proporção 23 24

7 Amostragem Estratificada Amostragem: Aspectos Importantes Dados Brutos Cluster/Amostra Estratificada Permite um algoritmo de mineração rodar em complexidade que é potencialmente sub-linear com relação ao tamanho dos dados (dataset) Sugestões para o uso de amostragem: Amostragem aleatória simples pode ter uma performance muito baixa se os dados tiverem uma distribuição assimétrica Amostragem estratificada: Alternativa usada quando o conjunto de dados tem distribuição assimétrica Pode ser usada na seleção de dados para o conjunto de treinamento (Classificação), quando o número de elementos por classe não é balanceado (Amostragem c/ Reposição também pode ser usada) Estratégias para redução de dados Agregação Amostragem (Sampling) Sintetização de dados Discretização e hierarquia de conceito Sintetização de Dados O dataset pode ser reduzido por meio de uma representação adequada para os dados Métodos Paramétricos: Um modelo ou função estimam a distribuição dos dados Regressão Linear: Os dados são modelados para estabelecer uma equação matemática (reta) relacionamento entre duas variáveis Regressão Múltipla: uma variável dependente Y pode ser modelada como uma função linear de um vetor multidimensional Métodos Não-paramétricos: Não assume modelos; Principais famílias: histogramas, clusterização, amostragem 27 28

8 Histogramas Uma técnica popular para redução de dados Divide os dados em classes e armazena os representantes de cada classe (ex: sum, count) Clusterização (Agrupamento) Particiona o conjunto de dados em classes (clusters) Os representantes são os centróides e os outliers A eficácia depende da distribuição dos dados Outlier Outlier Estratégias para redução de dados Agregação Amostragem (Sampling) Sintetização de dados Discretização e hierarquia de conceito Discretização e Hierarquia Principais métodos para dados numéricos: Particionamento ou Binning Não-supervisionado (tópico será coberto na aula de laboratório) Análise de Histogramas Não-supervisionado (tópico será coberto na aula de laboratório) Análise de Agrupamento Não-supervisionado Discretização baseado em Entropia 31 Supervisionado (com o uso do atributo meta ou classe) Segmentação natural (sem o uso do atributo 32

9 Discretização baseada em entropia Dado um conjunto de amostras S, se S é particionado em dois intervalos S 1 e S 2 usando um valor (threshold) T, o ganho de informação é: A entropia é calculada com base na distribuição de classes das amostras do conjunto Dadas m classes, a entropia de S 1 é dada por: onde p i é a probabilidade da classe i pertencer a S 1 O valor de T que minimiza a função entropia sobre todos possíveis intervalos é selecionado para a discretização binária O processo é aplicado recursivamente nas partições obtidas até que algum critério de parada seja satisfeito O valor de T pode reduzir o tamanho dos dados e melhorar a precisão da classificação S1 S2 I ( S, T) = Entropy( S1) + Entropy( S2) S S Entropy ( S m 1 ) = p i log 2( p i ) i= 1 Discretização usando Classes Método baseado na entropia 3 categorias para ambos x e y 5 categorias para ambos x e y Discretização sem o uso de Classes Geração de Hierarquia (categórico) Dados Originais Intervalos com mesma frequência Intervalos com mesmo tamanho K-means Especificação de uma ordem parcial/total dos atributos explicitamente por meio dos usuários ou especialistas: Rua < Cidade < Estado < País Especificação de uma hierarquia para um conjunto de valores através de agrupamento de dados: {Feagri, Unicamp, Barão Geraldo} < Campinas Especificação de um conjunto parcial de atributos: Ex: somente Rua < Cidade, não outros atributos Geração automática de hierarquias (ou nível de atributo) pela análise do número de valores distintos: Ex: para um conjunto de atributos: {Rua, Cidade, Estado, País} 35 36

10 Geração de Hierarquia (categórico) Algumas hierarquias podem ser automaticamente geradas com base na análise do número de valores distintos por atributo no conjunto de dados O atributo com mais valores distintos é colocado no último nível da hierarquia Exceções (Ex: dia da semana, mês, semestre, ano) - ordem Métodos para Redução de Dimensionalidade País 15 valores distintos Stanley Robson de M Oliveira Estado Cidade Rua 365 valores distintos 3567 valores distintos valores distintos A1 A2 A3 A4 A5 A A1 A2 A3 A4 A45 37 Aspectos Relevantes Redução de dimensão: Necessidade, motivação e aplicações Principais Abordagens: Extração de atributos (não-supervisionada); Seleção de atributos (Supervisionada) Métodos para extração de atributos (filtros): Projeção Aleatória (Random Projection); Análise de Componentes Principais (PCA); Multidimensional Scaling (MS); Decomposição do Valor Singular (SVD); Latent Semantic Indexing (LSI) Por que redução de dimensão? Muitas técnicas de aprendizado de máquina e mineração de dados podem não ser eficientes para dados com alta dimensionalidade: A maldição da dimensionalidade A precisão e a eficiência de uma consulta degradam rapidamente à medida em que a dimensão aumenta A dimensão intrínseca pode ser menor Muitos atributos são irrelevantes Exemplo: o número de genes responsáveis por um certo tipo de doença pode ser menor 39 40

11 Por que redução de dimensão? Visualização: projeção de dados com alta dimensionalidade em 2D ou 3D Compressão de dados: eficiência no armazenamento e recuperação Remoção de ruído: efeito positivo na acurácia de modelos e de consultas Motivação Quando a dimensionalidade aumenta, os dados tornam-se progressivamente esparsos no espaço em que ocupam Definição de distância entre pontos, que é critica para agrupamento e detecção de outliers, torna-se menos significativa A análise de dados pode ficar muito cara se todos os atributos forem considerados 500 pontos gerados aleatoriamente Cálculo da diferença entre a distância max e min para os pares de pontos Motivação Aplicações Os alvos principais do proceso de redução de dimensionalidade são: Melhorar a performance dos algoritmos de aprendizado de máquina Simplificar os modelos de predição e reduzir o custo computacional para rodar esses modelos Fornecer um melhor entendimento sobre os resultados encontrados, uma vez que existe um estudo prévio sobre o relacionamento entre os atributos Relacionamento com clientes (CRM) Mineração e/ou processamento de textos Recuperação de informação em banco de imagens Análise de dados de microarrays Classificação de proteínas Reconhecimento de face Aplicações com dados meteorológicos Química combinatorial etc 43 44

12 Classificação de documentos Outros exemplos de aplicações Bibliotecas Digitais Tarefa: classificar documentos em categorias Desafio: milhares de termos Solução: aplicar técnicas de redução de dimensão 45 Reconhecimento de face Reconhecimento de dígitos manuscritos 46 Principais Abordagens Seleção de atributos O assunto será estudado na próxima aula Extração de atributos (redução) Cria novos atributos a partir dos atributos originais Diferenças entre as duas abordagens Seleção de Atributos IDÉIA GERAL: Processo que escolhe um subconjunto ótimo de atributos de acordo com uma função objetivo Objetivos: Reduzir dimensionalidade e remover ruído Melhorar a performance da mineração de dados: Aumenta a velocidade do aprendizado Melhora a acurácia de modelos preditivos Facilita a compreensão dos resultados minerados 47 48

13 Extração de Atributos IDÉIA GERAL: Ao invés de escolher um subconjunto de atributos, define novas dimensões em função de todos os atributos do conjunto original Não considera o atributo classe, somente os atributos numéricos (vetores de dados) Extração de Atributos Idéia: Dado um conjunto de pontos no espaço d-dimensional, Projetar esse conjunto de pontos num espaço de menor dimensão, preservando ao máximo as informações dos dados originais Em particular, escolher uma projeção que minimize o erro quadrático na reconstrução dos dados originais Principais Métodos: Projeção Aleatória (Random Projection); Análise de Componentes Principais (PCA); Multidimensional Scaling (MS); Decomposição do Valor Singular (SVD); Latent semantic indexing (LSI) Seleção versus Extração (redução) Extração de atributos: Todos os atributos originais são usados Os novos atributos são combinação linear dos atributos originais Análise de Componentes Principais (PCA) Seleção de atributos: Somente um subconjunto dos atributos originais são selecionados x 2 2a Componente e1a Componente Atributos contínuos versus discretos 51 x 1

14 Análise de Componentes Principais Método para transformar variáveis correlacionadas em um conjunto de variáveis não-correlacionadas que melhor explica os relacionamentos entre os dados originais Método para identificar as dimensões que exibem as maiores variações em um conjunto de dados Método que possibilita encontrar a melhor aproximação dos dados originais usando um conjunto menor de atributos PCA: Idéia Geral A linha verde tem uma representação reduzida dos dados originais que captura o máximo da variação original dos dados A segunda linha (azul), perpendicular à primeira (verde), captura menos variação nos dados originais Idéia geral: encontrar os autovetores da matriz de covariância dos dados Os autovetores definem o novo espaço x 2 e x Autovalores e Autovetores Dado um operador linear T: V V, estamos interessados em um vetor v V e um escalar λ Rtais que T(v) = λv Neste caso T(v) será um vetor de mesma "direção" que v, ou melhor, T(v) e v estão sobre a mesma reta suporte Um autovalor de uma matriz A n n é um escalar λ tal que existe um vetor v (não-nulo), com Av = λv, onde v é chamado de autovetor de A associado a λ Interpretação geométrica em R 2 u é autovetor de T pois λ R/ T(u) = λu v não é autovetor de T pois λ R/ T(v) = λv Podemos encontrar os autovaloresλe autovetores v pela função característica definida como: p(λ) = det(a -λi) onde: p(λ) é chamado de polinômio característico de A; I é a matriz identidade 55 56

15 Exemplo: Autovalores e Autovetores Calcular os autovalores e autovetores da matriz: T: R 2 R 2 (x, y) (4x + 5y, 2x + y) Cálculo dos autovalores: det (A λi) = 0 4 det( A λi) = det λ 1 0 det (A λi) = 0 (4 λ)(1 λ) 10 = 0 λ 2 5λ 6 = 0 Os autovalores são λ 1 = 1 e λ 2 = λ = det A= λ Para cada autovalor encontrado, resolvemos o sistema linear (A λi)v = 0 Os respectivos autovetores são: v 1 = (-1, 1) e v 2 = (5/2, 1) 5 1 Redução de : PCA As componentes principais são vetores ortogonais Minimizar o erro quadrático (Root Mean Square) RMS representa a diferença entre os pontos originais e os novos pontos calculados pela transformação a Componente 1 o principal vetor 2a Componente PCA: Algoritmo Algoritmo PCA: X Matriz de dados (N x d), em que cada linha é um vetor x n X Em cada linha, subtrair a média x de cada elemento do vetor x n em X Σ matriz de covariância de X Encontrar os autovalores e autovetores de Σ PC s os K autovetores com os maiores autovalores Algoritmo PCA no Matlab % generate data Data = mvnrnd([5, 5],[1 15; 15 3], 100); figure(1); plot(data(:,1), Data(:,2), '+'); %center the data for i = 1:size(Data,1) Data(i, :) = Data(i, :) - mean(data); end DataCov = cov(data); %covariance matrix [PC, variances, explained] = pcacov(datacov); %eigen % plot principal components figure(2); clf; hold on; plot(data(:,1), Data(:,2), '+b'); plot(pc(1,1)*[-5 5], PC(2,1)*[-5 5], '-r ) plot(pc(1,2)*[-5 5], PC(2,2)*[-5 5], '-b ); hold off % project down to 1 dimension PcaPos = Data * PC(:, 1); 59 60

16 Qual é o número ideal de componentes? Verifique a distribuição dos autovalores Selecione um número de autovetores que cubra 80 a 90% da variância Exemplo: Dados sobre a eficiência de cana-de-açúcar para 20 municípios em SP, em Resultado da Análise (Minitab) Resultado da Análise (Minitab) É possível explicar aproximadamente 90% da variabilidade total observada nos dados com apenas três componentes principais: A Figura acima evidencia a importância das três primeiras componentes, em relação às demais (quanto maior é o autovalor, maior será a porcentagem de variação explicada pela componente correspondente) 63 64

17 Resultado da Análise (Minitab) Resultado da Análise (Minitab) A Figura acima ilustra geometricamente como as seis variáveis do exemplo podem ser adequadamente representadas por duas componentes principais (Z 1 e Z 2 ) 65 As duas componentes descrevem, de uma forma geral, características das cidades vizinhas que possuem climas e condições de cultivo semelhantes 66 PCA: Descarte de Atributos Dados N vetores no espaço n-dimensional, encontrar k n vetores ortogonais (componentes principais) que podem ser melhor usados para representar os dados Passos: Normalizar dados originais: todos atributos ficam na mesma faixa (intervalo) Calcular k vetores ortogonais, ie, componentes principais Cada vetor (original) é uma combinação linear dos k vetores (componentes principais) As componentes principais são ordenadas (ordem decrescente) representando a significância ou força Como as componentes são ordenadas, o tamanho dos dados pode ser reduzido eliminando-se as componentes fracas, ie, aquelas com baixa variância PCA: Descarte de Atributos IDÉIA GERAL: Executar PCA sobre uma matriz de correlação com p variáveis Inicialmente, k variáveis são selecionadas (retidas) No final, (p k) variáveis serão descartadas 67 68

18 PCA: Descarte de Atributos Algoritmo: Selecione o autovetor (componente) correspondente ao menor autovalor; Rejeite a variável com maior coeficiente (valor absoluto) na componente O processo continua até que os (p k) menores autovalores sejam considerados Princípio para descarte de variáveis: uma componente com baixo autovalor é menos importante e, consequentemente, a variável que domina essa componente deve ser menos importante ou redundante PCA: Descarte de Atributos A escolha de k (variáveis retidas): Jolliffe (1972) recomenda o thresholdλ 0 = 070 depois de investigar vários conjuntos de dados; Qualquer autovalor λ λ 0 = 070 contribui muito pouco para a explicação dos dados Jolliffe, I T (1972) Discarding variables in principal component analysis I: artificial data Appl Statist, 21, Jolliffe, I T (1973) Discarding variables in principal component analysis II: real data Appl Statist, 22, PCA: Descarte de Atributos Dataset: IRIS Projeção Aleatória λ i < 070 Variáveis descartadas: petallength, sepallength n A1 A2 A3 A4 A5 Ad K1 K2 K3 K4 Kp Projeção Aleatória de d para p dimensões, p << d 1 2 n Variáveis retidas: sepalwidth, petalwidth 71

19 Projeção Aleatória Fundamento do método: Quando um vetor no espaço d-dimensional é projetado em um subespaço aleatório k-dimensional (k << d), as distâncias entre os pares de pontos são quase que totalmente preservadas Lema de Johnson e Lindenstrauss (1984) Na prática: os pares de pontos não são distorcidos mais do que um fator de (1 ±ε), para 0 < ε < 1, com probabilidade O(1/n 2 ), onde n é o número de pontos (objetos) em análise Projeção Aleatória Projeção Aleatória de d para k dimensões: D n k = D n d R d k D é a matriz original; D é a matriz reduzida; R é a matriz aleatória (transformação linear), onde: A matriz R tem as seguintes características: As colunas de R são compostas de vetores ortonormais Esses vetores têm comprimento (norma) igual a um Os elementos r ij de R têm média zero e variância um Projeção Aleatória Projeção Aleatória A matriz R é gerada da seguinte maneira: Passos: (R 1 ): r ij ~ N(0,1) e as colunas são normalizadas; + 1com probabilidade1/ 6 (R 2 ): r ij = 3 0 com probabilidade2/ 3 1com probabilidade1/ 6 Passo 1 Separação dos atributos numéricos; Passo 2 Normalização de atributos; Passo 3 Redução de dimensão usando projeção aleatória Passo 4 Cálculo do erro que as distâncias (d-k) sofrem: 2 ˆ 2 2 Erro = ( ( dij dij) )/( dij ) i, j i, j d ij Onde: é a distância entre os pontos i e j; dˆij é a distância entre os pontos i e j no espaço reduzido 75 76

20 Projeção Aleatória Vantagens: Complexidade: O(m), onde m é o número de objetos; Facilidade de implementação; Baixo custo computacional Desvantagens: Só pode ser aplicada para atributos numéricos Não é útil para as tarefas de classificação e associação Aplicações de Projeção Aleatória Proteção de privacidade (mascarar dados): Lema: Uma projeção aleatória de d para k dimensões, onde k<< d, é uma transformação linear não inversível Recuperação de Informação: Redução de atributos representando os índices Agrupamento (ou clusterização): Algoritmos baseados em distância são beneficiados com o uso de projeção aleatória Exemplo de Projeção Aleatória Referências para consulta ID ID age Atr weight heart rate Int_def QRS RP 1 RP 2 Atr Atr Atr Atr PR_int Atr Matriz Original Amostra do dataset cardiac arrhythmia (UCI Machine Learning Repository) Matriz Transformada RP 1 : Matriz aleatória com base na Distribuição Normal RP 2 : Matriz aleatória com base na Distributição mais simples Wall, Michael E, Andreas Rechtsteiner, Luis M Rocha Singular value decomposition and principal component analysis In A Practical Approach to Microarray Data Analysis DP Berrar, W Dubitzky, M Granzow, eds pp , Kluwer: Norwell, MA, 2003 Papadimitriou CH, Tamaki H, Raghavan P, Vempala S Latent semantic indexing: a probabilistic analysis In: Proceedings of the 17th ACM symposium on principles of database systems Seattle, WA, USA; June 1998 p Jolliffe, I T Discarding Variables in a Principal Component Analysis In Applied Statistics, Vol 21, No 2 (1972), pp Jolliffe, I T Principal Component Analysis: Springer-Verlag, New York,

21 Referências para consulta Kaski S Dimensionality reduction by random mapping In: Proceedings of the international joint conference on neural networks Anchorage, Alaska; May 1999 p Kruskal JB, Wish M Multidimensional scaling Beverly Hills, CA, USA: Sage Publications; 1978 Larsen B, Aone C Fast and effective text mining using lineartime document clustering In: Proceedings of the fifth ACM SIGKDD international conference on knowledge discovery and data mining San Diego, CA, USA; August 1999 p Faloutsos C, Lin K-I FastMap: a fast algorithm for indexing, datamining and visualization of traditional and multimedia datasets In: Proceedings of the 1995 ACM SIGMOD international conference on management of data San Jose, CA, USA; June 1995 p Referências para consulta Bingham E, Mannila H Random projection in dimensionality reduction: applications to image and text data In: Proceedings of the seventh ACM SIGKDD international conference on knowledge discovery and data mining San Francisco, CA, USA; 2001 p Johnson WB, Lindenstrauss J Extensions of Lipshitz mapping into Hilbert space In: Proceedings of the conference in modern analysis and probability Contemporary mathematics, vol 26; 1984 p Achlioptas D Database-friendly random projections In: Proceedings of the 20th ACM symposium on principles of database systems Santa Barbara, CA, USA; May 2001 p Fern XZ, Brodley CE Random projection for high dimensional data clustering: a cluster ensemble approach In: Proceedings of the 20th international conference on machine learning (ICML 2003) Washington DC, USA; August Referências para consulta Referências para consulta MA Hall Correlation-based feature selection for machine learning PhD thesis, Department of Computer Science, University of Waikato, Hamilto, New Zealand, 1998 U Fayyad and K Irani Multi-interval discretization of continuousvalued attributes for classification learning Proceedings of the 13th International Joint Conference on Artificial Intelligence, pages , 1993 H Liu and R Setiono Chi2: Feature selection and discretization of numeric attributes Proceedings of the IEEE 7th International Conference on Tools with Artificial Intelligence, pages , November 1995 TM Mitchell Machine Learning McGrawHill, USA, 1997 PJ Park, M Pagano, and M Bonetti A non-parametric scoring algorithm for identifying informative genes from microarray data Pacific Symposium on Biocomputing, pages 52 63, 2001 R Sandy Statistics for Business and Economics McGrawHill, USA, 1989 F Wilcoxon Individual comparisons by ranking methods Biometrics, 1:80 83, 1945 EP Xing and RM Karp Cliff: Clustering of high-dimensional microarray data via iterative feature filtering using normalized cuts Proceedings of The Ninth International Conference on Intelligence Systems for Molecular Biology, published on Bioinformatics, 17(suppl):S306 S315, 2001 Kenney, J F and Keeping, E S Mathematics of Statistics, Pt 2, 2nd ed Princeton, NJ: Van Nostrand, 1951 Weisstein, Eric W Chi-Squared Test From MathWorld A Wolfram Web Resource

Agenda. Métodos de Seleção de Atributos para Mineração de Dados. Geração de um Modelo de Classificação. O processo de descoberta do conhecimento

Agenda. Métodos de Seleção de Atributos para Mineração de Dados. Geração de um Modelo de Classificação. O processo de descoberta do conhecimento 10 10 Agenda Métodos de Seleção de Atributos para Mineração de Dados Stanley Robson de M. Oliveira Seleção de atributos: Motivação e objetivos. Abordagens para seleção de atributos: Métodos Supervisionados.

Leia mais

Pré processamento de dados II. Mineração de Dados 2012

Pré processamento de dados II. Mineração de Dados 2012 Pré processamento de dados II Mineração de Dados 2012 Luís Rato Universidade de Évora, 2012 Mineração de dados / Data Mining 1 Redução de dimensionalidade Objetivo: Evitar excesso de dimensionalidade Reduzir

Leia mais

Análise de componentes principais (PCA)

Análise de componentes principais (PCA) Análise de componentes principais (PCA) Redução de dados Sumarizar os dados que contém muitas variáveis (p) por um conjunto menor de (k) variáveis compostas derivadas a partir do conjunto original. p k

Leia mais

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para

Leia mais

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR Uma exploração preliminar dos dados para compreender melhor suas características. Motivações-chave da exploração de dados incluem Ajudar na seleção da técnica correta para pré-processamento ou análise

Leia mais

Avaliando o que foi Aprendido

Avaliando o que foi Aprendido Avaliando o que foi Aprendido Treinamento, teste, validação Predição da performance: Limites de confiança Holdout, cross-validation, bootstrap Comparando algoritmos: o teste-t Predecindo probabilidades:função

Leia mais

Módulo 4. Construindo uma solução OLAP

Módulo 4. Construindo uma solução OLAP Módulo 4. Construindo uma solução OLAP Objetivos Diferenciar as diversas formas de armazenamento Compreender o que é e como definir a porcentagem de agregação Conhecer a possibilidade da utilização de

Leia mais

Análise e visualização de dados utilizando redes neurais artificiais auto-organizáveis

Análise e visualização de dados utilizando redes neurais artificiais auto-organizáveis Análise e visualização de dados utilizando redes neurais artificiais auto-organizáveis Adriano Lima de Sá Faculdade de Computação Universidade Federal de Uberlândia 20 de junho de 2014 Adriano L. Sá (UFU)

Leia mais

Factor Analysis (FACAN) Abrir o arquivo ven_car.sav. Clique Extraction. Utilizar as 10 variáveis a partir de Vehicle Type.

Factor Analysis (FACAN) Abrir o arquivo ven_car.sav. Clique Extraction. Utilizar as 10 variáveis a partir de Vehicle Type. Prof. Lorí Viali, Dr. viali@pucrs.br; viali@mat.ufrgs.br; http://www.pucrs.br/famat/viali; http://www.mat.ufrgs.br/~viali/ Factor Analysis (FACAN) Abrir o arquivo ven_car.sav Utilizar as 10 variáveis a

Leia mais

Chapter 3. Análise de Negócios e Visualização de Dados

Chapter 3. Análise de Negócios e Visualização de Dados Chapter 3 Análise de Negócios e Visualização de Dados Objetivos de Aprendizado Descrever a análise de negócios (BA) e sua importância par as organizações Listar e descrever brevemente os principais métodos

Leia mais

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática (1) Data Mining Conceitos apresentados por 1 2 (2) ANÁLISE DE AGRUPAMENTOS Conceitos apresentados por. 3 LEMBRE-SE que PROBLEMA em IA Uma busca

Leia mais

Aula 02: Conceitos Fundamentais

Aula 02: Conceitos Fundamentais Aula 02: Conceitos Fundamentais Profa. Ms. Rosângela da Silva Nunes 1 de 26 Roteiro 1. Por que mineração de dados 2. O que é Mineração de dados 3. Processo 4. Que tipo de dados podem ser minerados 5. Que

Leia mais

Extração de Conhecimento & Mineração de Dados

Extração de Conhecimento & Mineração de Dados Extração de Conhecimento & Mineração de Dados Nesta apresentação é dada uma breve introdução à Extração de Conhecimento e Mineração de Dados José Augusto Baranauskas Departamento de Física e Matemática

Leia mais

4 Avaliação Econômica

4 Avaliação Econômica 4 Avaliação Econômica Este capítulo tem o objetivo de descrever a segunda etapa da metodologia, correspondente a avaliação econômica das entidades de reservas. A avaliação econômica é realizada a partir

Leia mais

Análise Exploratória de Dados

Análise Exploratória de Dados Análise Exploratória de Dados Profª Alcione Miranda dos Santos Departamento de Saúde Pública UFMA Programa de Pós-graduação em Saúde Coletiva email: alcione.miranda@gmail.com Introdução O primeiro passo

Leia mais

Banco de Dados - Senado

Banco de Dados - Senado Banco de Dados - Senado Exercícios OLAP - CESPE Material preparado: Prof. Marcio Vitorino OLAP Material preparado: Prof. Marcio Vitorino Soluções MOLAP promovem maior independência de fornecedores de SGBDs

Leia mais

O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2

O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2 3.2 O Espaço Nulo de A: Resolvendo Ax = 0 11 O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2 Esta seção trata do espaço de soluções para Ax = 0. A matriz A pode ser quadrada ou retangular. Uma solução imediata

Leia mais

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I! A utilização de escores na avaliação de crédito! Como montar um plano de amostragem para o credit scoring?! Como escolher as variáveis no modelo de credit

Leia mais

Paralelização do algoritmo SPRINT usando MyGrid

Paralelização do algoritmo SPRINT usando MyGrid Paralelização do algoritmo SPRINT usando MyGrid Juliana Carvalho, Ricardo Rebouças e Vasco Furtado Universidade de Fortaleza UNIFOR juliana@edu.unifor.br ricardo@sspds.ce.gov.br vasco@unifor.br 1. Introdução

Leia mais

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Prof. Celso Kaestner Poker Hand Data Set Aluno: Joyce Schaidt Versão:

Leia mais

MESTRADO EM PESQUISA DE MERCADOS 2006 2007

MESTRADO EM PESQUISA DE MERCADOS 2006 2007 MESTRADO EM PESQUISA DE MERCADOS 2006 2007 PROGRAMA DAS DISCIPLINAS 1 1º trimestre PESQUISA DE MERCADOS Objectivos Pretende-se que os alunos: (a) adquiram os conceitos e semântica próprios do tema, (b)

Leia mais

Estatística Aplicada. Gestão de TI. Evanivaldo Castro Silva Júnior

Estatística Aplicada. Gestão de TI. Evanivaldo Castro Silva Júnior Gestão de TI Evanivaldo Castro Silva Júnior Porque estudar Estatística em um curso de Gestão de TI? TI trabalha com dados Geralmente grandes bases de dados Com grande variabilidade Difícil manipulação,

Leia mais

A Preparação dos Dados

A Preparação dos Dados A Preparação dos Dados Escolhas Básicas Objetos, casos, instâncias Objetos do mundo real: carros, arvores, etc Ponto de vista da mineração: um objeto é descrito por uma coleção de características sobre

Leia mais

AULA 6 - Operações Espaciais

AULA 6 - Operações Espaciais 6.1 AULA 6 - Operações Espaciais Essa aula descreve as operações espaciais disponíveis no TerraView. Antes de iniciar sua descrição é necessário importar alguns dados que serão usados nos exemplos. Exercício:

Leia mais

Resoluções comentadas das questões de Estatística da prova para. ANALISTA DE GERENCIAMENTO DE PROJETOS E METAS da PREFEITURA/RJ

Resoluções comentadas das questões de Estatística da prova para. ANALISTA DE GERENCIAMENTO DE PROJETOS E METAS da PREFEITURA/RJ Resoluções comentadas das questões de Estatística da prova para ANALISTA DE GERENCIAMENTO DE PROJETOS E METAS da PREFEITURA/RJ Realizada pela Fundação João Goulart em 06/10/2013 41. A idade média de todos

Leia mais

COMENTÁRIO AFRM/RS 2012 ESTATÍSTICA Prof. Sérgio Altenfelder

COMENTÁRIO AFRM/RS 2012 ESTATÍSTICA Prof. Sérgio Altenfelder Comentário Geral: Prova muito difícil, muito fora dos padrões das provas do TCE administração e Economia, praticamente só caiu teoria. Existem três questões (4, 45 e 47) que devem ser anuladas, por tratarem

Leia mais

Modelo de dados do Data Warehouse

Modelo de dados do Data Warehouse Modelo de dados do Data Warehouse Ricardo Andreatto O modelo de dados tem um papel fundamental para o desenvolvimento interativo do data warehouse. Quando os esforços de desenvolvimentos são baseados em

Leia mais

Gerenciamento de Riscos do Projeto Eventos Adversos

Gerenciamento de Riscos do Projeto Eventos Adversos Gerenciamento de Riscos do Projeto Eventos Adversos 11. Gerenciamento de riscos do projeto PMBOK 2000 PMBOK 2004 11.1 Planejamento de gerenciamento de riscos 11.1 Planejamento de gerenciamento de riscos

Leia mais

SAD orientado a MODELO

SAD orientado a MODELO Universidade do Contestado Campus Concórdia Curso de Sistemas de Informação Prof.: Maico Petry SAD orientado a MODELO DISCIPLINA: Sistemas de Apoio a Decisão SAD Orientado a Modelo De acordo com ALTER

Leia mais

Correlação Canônica. Outubro / 1998. Versão preliminar. Fabio Vessoni. fabio@mv2.com.br (011) 30642254. MV2 Sistemas de Informação

Correlação Canônica. Outubro / 1998. Versão preliminar. Fabio Vessoni. fabio@mv2.com.br (011) 30642254. MV2 Sistemas de Informação Correlação Canônica Outubro / 998 Versão preliminar Fabio Vessoni fabio@mv.com.br (0) 306454 MV Sistemas de Informação Introdução Existem várias formas de analisar dois conjuntos de dados. Um dos modelos

Leia mais

Agrupamento de dados

Agrupamento de dados Organização e Recuperação de Informação: Agrupamento de dados Marcelo K. A. Faculdade de Computação - UFU Agrupamento de dados / 7 Overview Agrupamento: introdução Agrupamento em ORI 3 K-médias 4 Avaliação

Leia mais

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática 2006.2 Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem

Leia mais

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1. O que é a ciência de dados (data science). Discussão do conceito Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.3, Outubro, 2015 Nota prévia Esta apresentação tem por objetivo, proporcionar

Leia mais

Projeto de Redes Neurais e MATLAB

Projeto de Redes Neurais e MATLAB Projeto de Redes Neurais e MATLAB Centro de Informática Universidade Federal de Pernambuco Sistemas Inteligentes IF684 Arley Ristar arrr2@cin.ufpe.br Thiago Miotto tma@cin.ufpe.br Baseado na apresentação

Leia mais

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3. 1 1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3. Modelo de Resultados Potenciais e Aleatorização (Cap. 2 e 3

Leia mais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto Estudos Comparativos Recentes - Behavior Scoring Roteiro Objetivo Critérios de Avaliação

Leia mais

COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS

COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS Leonardo Meneguzzi 1 ; Marcelo Massoco Cendron 2 ; Manassés Ribeiro 3 INTRODUÇÃO

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Análisede links Page Rank Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Motivação Suponha que um modelo clássico, como

Leia mais

Modelagem e Simulação

Modelagem e Simulação AULA 11 EPR-201 Modelagem e Simulação Modelagem Processo de construção de um modelo; Capacitar o pesquisador para prever o efeito de mudanças no sistema; Deve ser próximo da realidade; Não deve ser complexo.

Leia mais

Clustering: K-means and Aglomerative

Clustering: K-means and Aglomerative Universidade Federal de Pernambuco UFPE Centro de Informática Cin Pós-graduação em Ciência da Computação U F P E Clustering: K-means and Aglomerative Equipe: Hugo, Jeandro, Rhudney e Tiago Professores:

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Aula anterior Organização e Recuperação de Informação(GSI521) Modelo vetorial- Definição Para o modelo vetorial, o

Leia mais

CURSO ON-LINE PROFESSOR GUILHERME NEVES

CURSO ON-LINE PROFESSOR GUILHERME NEVES Olá pessoal! Neste ponto resolverei a prova de Matemática Financeira e Estatística para APOFP/SEFAZ-SP/FCC/2010 realizada no último final de semana. A prova foi enviada por um aluno e o tipo é 005. Os

Leia mais

Organização e Arquitetura de Computadores I

Organização e Arquitetura de Computadores I Organização e Arquitetura de Computadores I Aritmética Computacional Slide 1 Sumário Unidade Lógica e Aritmética Representação de Números Inteiros Aritmética de Números Inteiros Representação de Números

Leia mais

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior MRP II Introdução A lógica de cálculo das necessidades é conhecida há muito tempo Porém só pode ser utilizada na prática em situações mais complexas a partir dos anos 60 A partir de meados da década de

Leia mais

Análise de Componente Principais (PCA) Wagner Oliveira de Araujo

Análise de Componente Principais (PCA) Wagner Oliveira de Araujo Análise de Componente Principais (PCA) Wagner Oliveira de Araujo Technical Report - RT-MSTMA_003-09 - Relatório Técnico May - 2009 - Maio The contents of this document are the sole responsibility of the

Leia mais

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de

Leia mais

Processamento de Imagem. Prof. MSc. André Yoshimi Kusumoto andrekusumoto.unip@gmail.com

Processamento de Imagem. Prof. MSc. André Yoshimi Kusumoto andrekusumoto.unip@gmail.com Processamento de Imagem Prof. MSc. André Yoshimi Kusumoto andrekusumoto.unip@gmail.com Visão Computacional Não existe um consenso entre os autores sobre o correto escopo do processamento de imagens, a

Leia mais

Universidade Federal de Alagoas Instituto de Matemática. Imagem. Prof. Thales Vieira

Universidade Federal de Alagoas Instituto de Matemática. Imagem. Prof. Thales Vieira Universidade Federal de Alagoas Instituto de Matemática Imagem Prof. Thales Vieira 2014 O que é uma imagem digital? Imagem no universo físico Imagem no universo matemático Representação de uma imagem Codificação

Leia mais

1 Tipos de dados em Análise de Clusters

1 Tipos de dados em Análise de Clusters Curso de Data Mining Sandra de Amo Aula 13 - Análise de Clusters - Introdução Análise de Clusters é o processo de agrupar um conjunto de objetos físicos ou abstratos em classes de objetos similares Um

Leia mais

Data, Text and Web Mining

Data, Text and Web Mining Data, Text and Web Mining Fabrício J. Barth TerraForum Consultores Junho de 2010 Objetivo Apresentar a importância do tema, os conceitos relacionados e alguns exemplos de aplicações. Data, Text and Web

Leia mais

Clustering - agrupamento. Baseado no capítulo 8 de. Introduction to Data Mining

Clustering - agrupamento. Baseado no capítulo 8 de. Introduction to Data Mining Clustering - agrupamento Baseado no capítulo 8 de Introduction to Data Mining de Tan, Steinbach, Kumar Clustering - agrupamento 1 O que é Clustering? Encontar grupos de objectos tal que os objectos dentro

Leia mais

http://www.de.ufpb.br/~luiz/

http://www.de.ufpb.br/~luiz/ UNIVERSIDADE FEDERAL DA PARAÍBA MEDIDAS DESCRITIVAS Departamento de Estatística Luiz Medeiros http://www.de.ufpb.br/~luiz/ Vimos que é possível sintetizar os dados sob a forma de distribuições de frequências

Leia mais

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento Data Mining Prof Luiz Antonio do Nascimento Data Mining Ferramenta utilizada para análise de dados para gerar, automaticamente, uma hipótese sobre padrões e anomalias identificadas para poder prever um

Leia mais

Análise de Regressão. Tópicos Avançados em Avaliação de Desempenho. Cleber Moura Edson Samuel Jr

Análise de Regressão. Tópicos Avançados em Avaliação de Desempenho. Cleber Moura Edson Samuel Jr Análise de Regressão Tópicos Avançados em Avaliação de Desempenho Cleber Moura Edson Samuel Jr Agenda Introdução Passos para Realização da Análise Modelos para Análise de Regressão Regressão Linear Simples

Leia mais

TÉCNICAS EXPERIMENTAIS APLICADAS EM CIÊNCIA DO SOLO

TÉCNICAS EXPERIMENTAIS APLICADAS EM CIÊNCIA DO SOLO 1 TÉCNICAS EXPERIMENTAIS APLICADAS EM CIÊNCIA DO SOLO Mario de Andrade Lira Junior www.lira.pro.br direitos autorais. INTRODUÇÃO À ANÁLISE MULTIVARIADA Apenas uma breve apresentação Para não dizerem que

Leia mais

Simulação Transiente

Simulação Transiente Tópicos Avançados em Avaliação de Desempenho de Sistemas Professores: Paulo Maciel Ricardo Massa Alunos: Jackson Nunes Marco Eugênio Araújo Dezembro de 2014 1 Sumário O que é Simulação? Áreas de Aplicação

Leia mais

Objetivos. Apresentar as superfícies regradas e superfícies de revolução. Analisar as propriedades que caracterizam as superfícies regradas e

Objetivos. Apresentar as superfícies regradas e superfícies de revolução. Analisar as propriedades que caracterizam as superfícies regradas e MÓDULO 2 - AULA 13 Aula 13 Superfícies regradas e de revolução Objetivos Apresentar as superfícies regradas e superfícies de revolução. Analisar as propriedades que caracterizam as superfícies regradas

Leia mais

Excel Planilhas Eletrônicas

Excel Planilhas Eletrônicas Excel Planilhas Eletrônicas Capitulo 1 O Excel é um programa de cálculos muito utilizado em empresas para controle administrativo, será utilizado também por pessoas que gostam de organizar suas contas

Leia mais

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística Aula 4 Conceitos Básicos de Estatística Aula 4 Conceitos básicos de estatística A Estatística é a ciência de aprendizagem a partir de dados. Trata-se de uma disciplina estratégica, que coleta, analisa

Leia mais

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3.

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3. Definição de Data Mining (DM) Mineração de Dados (Data Mining) Doutorado em Engenharia de Produção Michel J. Anzanello Processo de explorar grandes quantidades de dados à procura de padrões consistentes

Leia mais

ADM041 / EPR806 Sistemas de Informação

ADM041 / EPR806 Sistemas de Informação ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes

Leia mais

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br Data Warehousing Leonardo da Silva Leandro Agenda Conceito Elementos básicos de um DW Arquitetura do DW Top-Down Bottom-Up Distribuído Modelo de Dados Estrela Snowflake Aplicação Conceito Em português:

Leia mais

Data Mining: Conceitos e Técnicas

Data Mining: Conceitos e Técnicas Data Mining: Conceitos e Técnicas DM, DW e OLAP Data Warehousing e OLAP para Data Mining O que é data warehouse? De data warehousing para data mining Data Warehousing e OLAP para Data Mining Data Warehouse:

Leia mais

Técnicas de Seleção de Atributos utilizando Paradigmas de Algoritmos Disciplina de Projeto e Análise de Algoritmos

Técnicas de Seleção de Atributos utilizando Paradigmas de Algoritmos Disciplina de Projeto e Análise de Algoritmos Técnicas de Seleção de Atributos utilizando Paradigmas de Algoritmos Disciplina de Projeto e Análise de Algoritmos Theo Silva Lins, Luiz Henrique de Campos Merschmann PPGCC - Programa de Pós-Graduação

Leia mais

DATA WAREHOUSE. Introdução

DATA WAREHOUSE. Introdução DATA WAREHOUSE Introdução O grande crescimento do ambiente de negócios, médias e grandes empresas armazenam também um alto volume de informações, onde que juntamente com a tecnologia da informação, a correta

Leia mais

Tarefa Orientada 18 Tabelas dinâmicas

Tarefa Orientada 18 Tabelas dinâmicas Tarefa Orientada 18 Tabelas dinâmicas Análise de dados através de tabelas dinâmicas. Conceitos teóricos As Tabelas Dinâmicas são tabelas interactivas que resumem elevadas quantidades de dados, usando estrutura

Leia mais

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse Definição escopo do projeto (departamental, empresarial) Grau de redundância dos dados(ods, data staging) Tipo de usuário alvo (executivos, unidades) Definição do ambiente (relatórios e consultas préestruturadas

Leia mais

Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II. Mineração de Dados. Sylvio Barbon Junior barbon@uel.br. 26 de junho de 2015 DC-UEL Sylvio Barbon Jr 1

Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II. Mineração de Dados. Sylvio Barbon Junior barbon@uel.br. 26 de junho de 2015 DC-UEL Sylvio Barbon Jr 1 Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II Mineração de Dados Sylvio Barbon Junior barbon@uel.br 26 de junho de 2015 DC-UEL Sylvio Barbon Jr 1 Sumário Etapa I Etapa II Inteligência de Negócios Visão

Leia mais

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE Mariane Alves Gomes da Silva Eliana Zandonade 1. INTRODUÇÃO Um aspecto fundamental de um levantamento

Leia mais

Capítulo 7 Medidas de dispersão

Capítulo 7 Medidas de dispersão Capítulo 7 Medidas de dispersão Introdução Para a compreensão deste capítulo, é necessário que você tenha entendido os conceitos apresentados nos capítulos 4 (ponto médio, classes e frequência) e 6 (média).

Leia mais

Web Data mining com R: aprendizagem de máquina

Web Data mining com R: aprendizagem de máquina Web Data mining com R: aprendizagem de máquina Fabrício Jailson Barth Faculdade BandTec e VAGAS Tecnologia Junho de 2013 Sumário O que é Aprendizagem de Máquina? Hierarquia de aprendizado. Exemplos de

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Alessandro L. Koerich Algoritmo k Means Mestrado/Doutorado em Informática (PPGIa) Pontifícia Universidade Católica do Paraná (PUCPR) 2 Problema do Agrupamento Seja x = (x 1, x 2,,

Leia mais

Introdução. Capítulo. 1.1 Considerações Iniciais

Introdução. Capítulo. 1.1 Considerações Iniciais Capítulo 1 Introdução 1.1 Considerações Iniciais A face humana é uma imagem fascinante, serve de infinita inspiração a artistas há milhares de anos. Uma das primeiras e mais importantes habilidades humanas

Leia mais

Assessoria Técnica de Tecnologia da Informação - ATTI SIGA SAÚDE - BUSINESS INTELLIGENCE BI SIGA-SP. Manual de Orientação

Assessoria Técnica de Tecnologia da Informação - ATTI SIGA SAÚDE - BUSINESS INTELLIGENCE BI SIGA-SP. Manual de Orientação Assessoria Técnica de Tecnologia da Informação - ATTI SIGA SAÚDE - BUSINESS INTELLIGENCE BI SIGA-SP Versão 1 Manual de Orientação Conteúdo 1. Introdução 3 2. Abrangência 4 3. Vagas 5 4. Fila de Espera

Leia mais

Medidas de Variação ou Dispersão

Medidas de Variação ou Dispersão Medidas de Variação ou Dispersão Estatística descritiva Recapitulando: As três principais características de um conjunto de dados são: Um valor representativo do conjunto de dados: uma média (Medidas de

Leia mais

Engenharia de Software e Sistemas Distribuídos. Enunciado Geral do Projecto

Engenharia de Software e Sistemas Distribuídos. Enunciado Geral do Projecto LEIC-A, LEIC-T, LETI, MEIC-T, MEIC-A Engenharia de Software e Sistemas Distribuídos 2 o Semestre 2014/2015 Enunciado Geral do Projecto O que se segue é uma descrição geral do domínio do projecto a desenvolver

Leia mais

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões Classificação de imagens Autor: Gil Gonçalves Disciplinas: Detecção Remota/Detecção Remota Aplicada Cursos: MEG/MTIG Ano Lectivo: 11/12 Sumário Classificação da imagem (ou reconhecimento de padrões): objectivos

Leia mais

Curva ABC. Tecinco Informática Ltda. Av. Brasil, 5256 3º Andar Centro Cascavel PR www.tecinco.com.br

Curva ABC. Tecinco Informática Ltda. Av. Brasil, 5256 3º Andar Centro Cascavel PR www.tecinco.com.br Curva ABC Tecinco Informática Ltda. Av. Brasil, 5256 3º Andar Centro Cascavel PR www.tecinco.com.br Sumário Introdução... 3 Utilização no sistema TCar-Win... 3 Configuração da curva ABC... 4 Configuração

Leia mais

Arquitetura física de um Data Warehouse

Arquitetura física de um Data Warehouse É um modo de representar a macroestrutura de, comunicação, processamento e existentes para usuários finais dentro da empresa. Operacionais origem Data / Arquitetura física Serviços Armazenamento de Área

Leia mais

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo UNIVERSIDADE DE SÃO PAULO Faculdade de Arquitetura e Urbanismo DISTRIBUIÇÃO AMOSTRAL ESTIMAÇÃO AUT 516 Estatística Aplicada a Arquitetura e Urbanismo 2 DISTRIBUIÇÃO AMOSTRAL Na aula anterior analisamos

Leia mais

O que é a estatística?

O que é a estatística? Elementos de Estatística Prof. Dr. Clécio da Silva Ferreira Departamento de Estatística - UFJF O que é a estatística? Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os

Leia mais

Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining

Pós-Graduação Lato Sensu Especialização em Análise de Dados e Data Mining Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining Inscrições Abertas Início das Aulas: 24/03/2015 Dias e horários das aulas: Terça-Feira 19h00 às 22h45 Semanal Quinta-Feira 19h00

Leia mais

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios FATEC Cruzeiro José da Silva Ferramenta CRM como estratégia de negócios Cruzeiro SP 2008 FATEC Cruzeiro José da Silva Ferramenta CRM como estratégia de negócios Projeto de trabalho de formatura como requisito

Leia mais

PALAVRAS-CHAVE: Massas Nodulares, Classificação de Padrões, Redes Multi- Layer Perceptron.

PALAVRAS-CHAVE: Massas Nodulares, Classificação de Padrões, Redes Multi- Layer Perceptron. 1024 UMA ABORDAGEM BASEADA EM REDES PERCEPTRON MULTICAMADAS PARA A CLASSIFICAÇÃO DE MASSAS NODULARES EM IMAGENS MAMOGRÁFICAS Luan de Oliveira Moreira¹; Matheus Giovanni Pires² 1. Bolsista PROBIC, Graduando

Leia mais

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014 PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA 09/abril de 2014 Considerações Estatísticas para Planejamento e Publicação 1 Circularidade do Método

Leia mais

DESENVOLVENDO HABILIDADES CIÊNCIAS DA NATUREZA I - EM

DESENVOLVENDO HABILIDADES CIÊNCIAS DA NATUREZA I - EM Olá Caro Aluno, Você já reparou que, no dia a dia quantificamos, comparamos e analisamos quase tudo o que está a nossa volta? Vamos ampliar nossos conhecimentos sobre algumas dessas situações. O objetivo

Leia mais

Cálculo Numérico Aula 1: Computação numérica. Tipos de Erros. Aritmética de ponto flutuante

Cálculo Numérico Aula 1: Computação numérica. Tipos de Erros. Aritmética de ponto flutuante Cálculo Numérico Aula : Computação numérica. Tipos de Erros. Aritmética de ponto flutuante Computação Numérica - O que é Cálculo Numérico? Cálculo numérico é uma metodologia para resolver problemas matemáticos

Leia mais

Vetores Aleatórios, correlação e conjuntas

Vetores Aleatórios, correlação e conjuntas Vetores Aleatórios, correlação e conjuntas Cláudio Tadeu Cristino 1 1 Universidade Federal Rural de Pernambuco, Recife, Brasil Segundo Semestre, 2013 C.T.Cristino (DEINFO-UFRPE) Vetores Aleatórios 2013.2

Leia mais

Novell. Novell Teaming 1.0. novdocx (pt-br) 6 April 2007 EXPLORAR O PORTLET BEM-VINDO DESCUBRA SEU CAMINHO USANDO O NOVELL TEAMING NAVIGATOR

Novell. Novell Teaming 1.0. novdocx (pt-br) 6 April 2007 EXPLORAR O PORTLET BEM-VINDO DESCUBRA SEU CAMINHO USANDO O NOVELL TEAMING NAVIGATOR Novell Teaming - Guia de início rápido Novell Teaming 1.0 Julho de 2007 INTRODUÇÃO RÁPIDA www.novell.com Novell Teaming O termo Novell Teaming neste documento se aplica a todas as versões do Novell Teaming,

Leia mais

Reconhecimento de Padrões

Reconhecimento de Padrões Engenharia Informática (ramos de Gestão e Industrial) Departamento de Sistemas e Informação Reconhecimento de Padrões Projecto Final 2004/2005 Realizado por: Prof. João Ascenso. Departamento de Sistemas

Leia mais

Concepção e Elaboração

Concepção e Elaboração UNIVERSIDADE ESTADUAL PAULISTA INSTITUTO DE BIOCIÊNCIAS, LETRAS E CIÊNCIAS EXATAS DEPARTAMENTO DE CIÊNCIAS DE COMPUTAÇÃO E ESTATÍSTICA Análise e Projeto Orientado a Objetos Concepção e Elaboração Estudo

Leia mais

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE MÓDULO 6 INTRODUÇÃO À PROBBILIDDE Quando estudamos algum fenômeno através do método estatístico, na maior parte das vezes é preciso estabelecer uma distinção entre o modelo matemático que construímos para

Leia mais

MOQ-23 ESTATÍSTICA. Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo

MOQ-23 ESTATÍSTICA. Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo MOQ-3 ESTATÍSTICA Proessor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Probabilidade e Estatística: The Science o collecting and analyzing data or the purpose o drawing conclusions and making

Leia mais

PESQUISA OPERACIONAL: UMA ABORDAGEM À PROGRAMAÇÃO LINEAR. Rodolfo Cavalcante Pinheiro 1,3 Cleber Giugioli Carrasco 2,3 *

PESQUISA OPERACIONAL: UMA ABORDAGEM À PROGRAMAÇÃO LINEAR. Rodolfo Cavalcante Pinheiro 1,3 Cleber Giugioli Carrasco 2,3 * PESQUISA OPERACIONAL: UMA ABORDAGEM À PROGRAMAÇÃO LINEAR 1 Graduando Rodolfo Cavalcante Pinheiro 1,3 Cleber Giugioli Carrasco 2,3 * 2 Pesquisador - Orientador 3 Curso de Matemática, Unidade Universitária

Leia mais

Mestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015

Mestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015 Mestrado Profissional em Administração Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015 Análise Fatorial MANLY, Cap. 7 HAIR et al., Cap. 3 2 Objetivos: Análise Fatorial!

Leia mais

Probabilidade. Renata Souza. Introdução. Tabelas Estatísticas. População, Amostra e Variáveis. Gráficos e Distribuição de Freqüências

Probabilidade. Renata Souza. Introdução. Tabelas Estatísticas. População, Amostra e Variáveis. Gráficos e Distribuição de Freqüências Probabilidade Introdução Tabelas Estatísticas População, Amostra e Variáveis Gráficos e Distribuição de Freqüências Renata Souza Conceitos Antigos de Estatística stica a) Simples contagem aritmética Ex.:

Leia mais

Recordamos que Q M n n (R) diz-se ortogonal se Q T Q = I.

Recordamos que Q M n n (R) diz-se ortogonal se Q T Q = I. Diagonalização ortogonal de matrizes simétricas Detalhes sobre a Secção.3 dos Apontamentos das Aulas teóricas de Álgebra Linear Cursos: LMAC, MEBiom e MEFT (semestre, 0/0, Prof. Paulo Pinto) Recordamos

Leia mais

Multiplexador. Permitem que vários equipamentos compartilhem um único canal de comunicação

Multiplexador. Permitem que vários equipamentos compartilhem um único canal de comunicação Multiplexadores Permitem que vários equipamentos compartilhem um único canal de comunicação Transmissor 1 Receptor 1 Transmissor 2 Multiplexador Multiplexador Receptor 2 Transmissor 3 Receptor 3 Economia

Leia mais

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho 20 Capítulo 3 Avaliação de Desempenho Este capítulo aborda como medir, informar e documentar aspectos relativos ao desempenho de um computador. Além disso, descreve os principais fatores que influenciam

Leia mais