Pré-processamento de dados

Tamanho: px
Começar a partir da página:

Download "Pré-processamento de dados"

Transcrição

1 Pré-processamento de dados Clodoaldo A. M. Lima, Sarajane M. Peres 13 de agosto de 2015 Programa de Pós-Graduação em Sistemas de Informação Mestrado acadêmico - EACH - USP Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

2 Pré-processamento de dados textuais Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

3 Pré-processamento de dados textuais Dados textuais Para realização da análise automática de textos, seja com fins de resolução de tarefas de mineração sobre dados textuais, processamento de linguagem natural ou recuperação de informação, é necessário preparar a coleção de documentos textuais (o corpus) a fim de adequá-los ao processamento automático. Alguns dos procedimentos apresentados ao longo dessa aula são comumente aplicados a todas as áreas citadas, outros são mais adequados para uso em uma ou outra área citada. Um conjunto de dados organizado a partir de um corpus Um conjunto de n documentos X = {doc 1, doc 2,..., doc n}. Cada um dos documentos, por sua vez, é definido como um conjunto de m termos (radicais, palavras ou conjunto de palavras), na forma doc i = {wt 1, wt 2,..., wt m}, sendo que wt j pode assumir valores boolenos ou reais. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

4 Pré-processamento de dados textuais Lei de Zipft Lei empírica que diz que: a n th maior frequência de ocorrência de uma palavra em uma ĺıngua é inversamente proporcional ao seu posto {rank}. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

5 Pré-processamento de dados textuais O experimento de Luhn mostrou que palavras muito frequentes num texto, assim como palavras raras, não são significativas para caracterizá-lo. Com base em seus testes empíricos, ele propôs uma curva normal centrada na palavra de frequência média para indicar o poder de resolução (resolving power) de palavras significativa. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

6 Pré-processamento de dados textuais Alta dimensionalidade e alto grau de espasidade Os conjunos de dados X gerados a partir de um corpus possuem alta dimensionalide e alto grau de esparsidade (a proporção de zeros na matriz é muito alta). Maldição da dimensionalidade Diz respeito ao aumento exponencial do volume associado quando se adiciona dimensões extras a um espaço matemático. Assim, quanto mais características descritivas for necessário processar, maior a quantidade de exemplares necessários para obter um modelo que explique os dados (em algum sentido). Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

7 Pré-processamento de dados textuais Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

8 Pré-processamento de dados textuais Preparação dos documentos Há uma série de procedimentos que são úteis para preparar uma coleção de documentos antes que ela seja representada como um conjunto de dados X. análise léxica (tokenizing) eliminação de stopwords; redução dos termos aos seus radicais; Vector Space Model - VSM Modelo de representação dos textos em um espaço de vetores. Cada documento é um vetor de termos (index term). Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

9 Pré-processamento de dados textuais Análise léxica eliminação de caracteres de pontuação e outros caracteres; determinação de um separador para separação das palavras (criação da lista de termos inicial); eliminação de dígitos e acentos; alteração da capitalização das palavras. Problemas U.S us ou u s; campo grande Campo Grande; 510 D.C dc; mangá manga; http www each usp br sarajane; Tomada de decisão dependente do contexto. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

10 Pré-processamento de dados textuais Eliminação de stopwords Stopwords é uma lista de palavras muito comum em uma ĺıngua, e que não tem potencial para contribuir para a caracterização do conteúdo presente no texto. Nessa lista geramente estão: artigos definidos e indefinidos, preposições, pronomes, numerais, conjunções e advérbios. Além das palavras pertencentes a essas classes gramaticais, podem entrar na lista as palavras muito comuns dentro do contexto referente aos documentos do corpus. Exemplos Leia mais num portal de notícias escola ou professor tem textos de monografias de uma especialização em Ética, valores e cidadania na escola ; A eliminação de stopwords pode representar uma redução de 30% a 50% o tamanho dos textos. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

11 Pré-processamento de dados textuais Redução dos termos aos seus radicais Um termo no documento pode sofrer variações como plural, gerúndio, verbos flexionados, aumentativo, diminutivo e etc. Com a redução do termo ao seu radical, processo também conhecido por stemming, os prefixos e sufixos são eliminados, possibilitando a uniformização de termos. Exemplos - Snowball para português quilos quil / bóia bói / boiando boi Stemmers Snowball PTStemmer Problemas - exemplos no inglês factual fact (sufixo UAL) equal eq (sufixo UAL) absorb absor (sufixo B) absorpt absor (sufixo PT) Esse processo também tem o efeito de reduzir o tamanho de um documento. Há experimentos que apontam 5% de redução. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

12 Pré-processamento de dados textuais Space Vector Model - construção do conjunto C representação binária representação por frequência representação tf-idf representação tf-idf normalizado Representação binária Representação simplificada na qual valores binários (ou pesos binários) indicam a presença ou ausência do termo em um documento. Os termos presentes possuem todos a mesma importância na representação de um documento. doc 1 = {0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1} Os dois mais importantes fatores que direcionam a efetividade de uma representação: exaustividade (completude) da indexação e especificidade da representação. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

13 Pré-processamento de dados textuais Representação por frequência - term frequency tf Representação na qual a frequência de um termo no documento é associada ao peso do termo na representação daquele documento. doc 1 = {3, 6, 1, 0, 0, 4, 9, 1, 1, 0, 0, 0, 0, 6, 0, 0, 3, 0, 0, 12, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 3} Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

14 Pré-processamento de dados textuais Existem termos com frequência maior que possuem poder de resolução mais baixo do que termos com frequência menor. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

15 Pré-processamento de dados textuais Exaustividade (completude) da indexação - exhaustivity of indexing Número de termos associados a um dado documento. Número de tópicos diferentes que foram indexados. Especificidade da representação - specificity of the index language Número de documentos ao qual um dado termo está associado dentro de uma coleção de documentos. Habilidade de representação em descrever um tópico precisamente. Nosso problema é encontrar um trade-off entre os objetivos acima. É necessário atribuir pesos aos índices de forma maximizar a chance de encontrar esse trade-off. Precisão X Revocação - Precision X Recall - na recuperação de informação Precisão: proporção de documentos recuperados que são relevantes Revocação: proporção de documentos relevantes recuperados Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

16 Pré-processamento de dados textuais Frequência inversa nos documentos inverse document frequency idf idf (t j ) = log n nt j (1) em que n é o número de documentos no corpus e nt j é o número de documentos nos quais o termo t aparece. Representação por td-idf Representação na qual o peso associado a uma palavra é calculando considerando tanto a frequência com a qual ele aparece no texto, quanto ao número de documentos no qual ele aparece. tf idf (t j, doc i ) = tf (t j, doc i ) idf (t j ) (2) Nessa representação quanto maior a frequência do termo no documento, maior é a representatividade do termo para aquele documento; quanto maior o número de documentos no qual um termo aparece, menos discriminante o termo é; Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

17 Pré-processamento de dados textuais Representação por td-idf normalizado Representação na qual o peso associado a uma palavra é calculando considerando tanto a frequência com a qual ele aparece no texto, quanto o número de documentos no qual ele aparece. tf idf normalizado (t j, doc i ) = tf idf (t j, doc i ) s=1 ntermos (tf idf (ts, doc i )) 2 (3) Essa representação é útil pois coloca os pesos dentro do intervalo [0, 1] e também suaviza o efeito de diferenças entre os tamanhos dos documentos. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

18 Interpretações geométricas e similaridades Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

19 Interpretações geométricas e similaridades Interpretações geométricas Nossos exemplares, de um conjunto de dados, podem ser interpretados geométricamente (ou podem ser vistos como vetores em um espaço vetorial). Considere o exemplo dos gafanhotos e esperanças Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

20 Interpretações geométricas e similaridades Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

21 Interpretações geométricas e similaridades Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

22 Interpretações geométricas e similaridades Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

23 Interpretações geométricas e similaridades Similaridade É a qualidade, caráter ou condição de coisas similares (análogas, equivalentes, semelhantes). O problema é como identificar e como medir. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

24 Interpretações geométricas e similaridades Similaridade É a qualidade, caráter ou condição de coisas similares (análogas, equivalentes, semelhantes). O problema é como identificar e como medir. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

25 Interpretações geométricas e similaridades Distâncias são normalmente usadas como medida de similaridade entre objetos. Há uma variedade enorme de medidas de distâncias, e algumas delas são mais comuns nos algoritmos de mineração de dados: Manhattan, Hamming, Euclidiana. Alternativas ao uso de medidas de distâncias são medida como entropia, correlação e concordâncias; a comparação entre os dados é de outra natureza. Outras alternativas podem aparecer por aí... Propriedade de uma medida de distância: d(i, j) 0; d(i, i) = 0 d(i, j) = d(i, j) d(i, j) d(i, k) + d(k, j) Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

26 Interpretações geométricas e similaridades Distância Euclidiana d(i, j) = (x i1 x j1 ) 2 + (x i2 x j2 ) (x ip x jp ) 2 (4) Distância de Hamming Considerando duas strings de mesmo comprimento, a distância de Hamming fornece o número de posições nas quais as strings diferem. Entropia Comumente associada ao que se entende por desordem. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

27 Normalização de dados Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

28 Normalização de dados Normalização é um procedimento de pré-processamento de dados cujo objetivo é escalar os valores dos atributos de forma que todos fiquem ou dentro de um intervalo específico, por exemplo [0, 1] ou [-1, 1], ou distribuídos em torno de sua média de acordo com seu desvio padrão. Esse procedimento é especialmente útil quando os algoritmos de análise de dados são baseados em distância (similaridades e diferenças são mensuradas usando métricas de distância). Também é útil para acelerar o processo de convergência de um algoritmo de Machine Learning (como por exemplo, redes neurais artificiais). Valores normalizados são mais fáceis de interpretar. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

29 Normalização de dados (a) Conjunto de dados (b) Atributo X (c) Atributo Y Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

30 Normalização de dados Plotando o conjunto de dados com os valores originais, usando diferentes escalas para visualização no eixo x (atributo X). (d) (e) (f) Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

31 Normalização de dados Distância euclidiana entre exemplares (entre os vetores), considerando apenas o atributo X, apenas o atributo Y (vetores unidimensionais) e considerando ambos os atributos (vetores bidimensionais) - ilustrando apenas a parte inicial da matriz de distâncias: (g) Dist. X (h) Dist. Y (i) Dist. XY Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

32 Normalização de dados Considere os exemplares (originais): (5 257) (7 114,56) (2 336,4) (5,5 332,8) - em vermelho no gráfico. Observe as distâncias (euclidiana). (j) (k) Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

33 Normalização de dados Normalização Min-max Trata-se de uma transformação linear sobre os valores originais de um atributo A. Sendo min A e max A os valores mínimos e máximos de um atributo, o procedimento mapeia um valor v de A para v no intervalo [new min A, new max A, estabelecidos pelo analista de dados, computando: v = v min A max A min A (new maxa new mina) + new min A (5) Essa transformação preserva o relacionamento entre os valores originais. Observe que os valores min A e max A precisam ser defindos com cuidado, ou uma entrada futura pode cair fora desses intervalos e causar um problema na preservação dos relacionamentos originais. Os min A e max A precisam ser armazenados para que possam ser usados na normalização de novos exemplares. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

34 Normalização de dados Plotando o conjunto de dados normalizado - Min-max - intervalo [0,1] (l) Min-max (m) Original (n) Normalizado Os valores de mínimo e máximo do atributo A foram tomados dentre os valores existentes no atributo. min x = 1.7 min y = 45.2 max x = 9.3 max y = Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

35 Normalização de dados Plotando o conjunto de dados normalizado - Min-max - intervalo [0,1] (o) Min-max (p) Original (q) Normalizado Os valores de mínimo e máximo do atributo A foram tomados nos limites do domínio dos atributos. min x = 0 min y = 10 max x = 10 max y = 1000 Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

36 Normalização de dados Considerando cada um dos casos de escolha dos valores de mínimo e máximo do atributo A, e tomando como entrada para a normalização, um novo exemplar: novo exemplar = (10, 999) novo exemplar x = 10 e novo examplar y = 999 Seguindo a primeira normalização (mínimo e máximo dentro dos valores dos exemplares existentes: x norm = 1.09 y norm = 1.08 Seguindo a segunda normalização (mínimo e máximo dentro dos limites do domínio x norm = 1 y norm = Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

37 Normalização de dados Distância euclidiana entre exemplares (entre os vetores), considerando o conjunto de dados original e o conjunto de dados normalizado (Minmax) (r) Dist. XY (s) Dist. XY norm Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

38 Normalização de dados Considere os exemplares (agora normalizados): (0,4342 0,2409) (0,6974 0,0789) (0,0395 0,3312) (0,5000 0,3271) - em vermelho no gráfico. E observe as distâncias (euclidiana). (t) (u) Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

39 Normalização de dados Normalização z-score Nesse caso, a normalização dos valores de um atributo A é realizada com base na média e no desvio padrão dos valores existentes no atributo. O valor v de A é transformado para v computando: v = v Ā σ A (6) onde Ā é a média dos valores existentes no atributo A e σ A é o desvio padrão do mesmo conjunto de vaores. Esse procedimento de normalização é útil principalmente quando os valores limites do domínio do atributo não são conhecidos, ou quando existem outliers no conjunto de valores. Essa normalização pode alterar levemente os relacionamentos originais entre os exemplares, inclusive contribuindo para suavizar efeitos de outliers. A suavização da presença de outliers pode ser melhorada também pela substuição da média pela mediana e do desvio padrão para o desvio padrão abosulto (σ abs A = m i=1 x i µ, onde x i é o i th valor do atributo A, m é o número de valores assumido pelo atributo A, e µ é ou a média ou a mediana dos valores do atributo A). Os valores Ā e σ A precisam ser armazenados para que possam ser usados na normalização de novos exemplares. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

40 Normalização de dados Plotando o conjunto de dados normalizado - z-score (v) z-score (w) Original (x) Normalizado Os valores de média e desvio padrão do conjunto original de valores assumido por A são: x = 4.78 ȳ = σ x = 2.25 σ y = Os coeficientes de variação (desvio padrão / média) são: cv x = cv y = Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

41 Normalização de dados Outro exemplo - com coeficientes de variação diferentes Onde x = ȳ = σ x = σ y = cv x = cv y = Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

42 Normalização de dados Normalização por escalonamento decimal Transforma os valores para decimais, da seguinte forma: v = v 10 j (7) onde j é igual a 1 se o maior valor absoluto no conjunto de valores do atributo A é < 10, é igual a 2 se o maior valor absoluto no conjunto de valores do atributo A é 10 e < 100, e assim por diante. Essa normalização pode alterar os relacionamentos originais entre os exemplares. O valor j precisam ser armazenado para que possa ser usado na normalização de novos exemplares. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

43 Normalização de dados Onde max(abs(x)) = 9, 3 max(abs(y)) = 924, 5 j x = 1 j y = 3 Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

44 Normalização de dados Um exemplo com outlier: original, minmax, z-score e escalonamento decimal. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

45 Valores faltantes (missing values), outliers e ruídos Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

46 Valores faltantes, outliers e ruídos Valores faltantes Não raramente, exemplares do conjunto de dados apresentam a atributos sem valores associados. É um problema para o trabalho em mineração de dados, pois os algoritmos se baseiam sua tomada de decisão levando em consideração todos os valores associados a um exemplar. Considere uma revisão sistemática Valores faltantes ocorrem pode diferentes motivos: um estudo pode ser perdido porque não foi possível encontrá-lo em sua versão completa (falta); um estudo pode ser perdido porque as informações presentes nele não são relevantes para a revisão (irrelevância); um estudo pode ser perdido porque o responsável por analisá-lo não entendeu o conteúdo do arquivo, ou não apresentou o resultado da análise (perda); um estudo pode ser perdido porque o conteúdo dele não está relacionado ao assunto da revisão (inaplicável); Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

47 Valores faltantes (missing values), outliers e ruídos Consider o conjunto de dados referente a registros de um hospital: Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

48 Valores faltantes (missing values), outliers e ruídos É interessante analisar porque os valores estão faltando. Há diferentes cenários: missing at random: se o motivo pelo qual eles se perderam não está relacionado aos próprios valores faltantes. Imagine que alguns questionários sobre satisfação dos clientes, respondidos por entrevistados foram extraviados nos Correios. A perda não está relacionada com a satisfação dos clientes (esperamos que não ). Esses casos tendem a não ser importantes, e as análises dos dados sofrerão por se ter uma amostra menor para estudo. not missing at random: se o motivo pelo qual eles se perderam está relacionado aos próprios valores dos dados. Se um teste de medicamento está sendo feito com pacientes que possuem depressão, alguns participantes podem ser mais suscetíveis a não seguir as regras do experimento, e por isso faltar em uma entrevista, não fazer uma medição, ou tomar a medicação de forma inadequada. Esses problemas não podem ser ignorados pois podem levar a análises tendenciosas. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

49 Valores faltantes (missing values), outliers e ruídos Como lidar com os valores faltantes analisar somente os dados disponíveis (isso pode implicar em excluir exemplares ou atributos); imputar os valores faltantes usando estratégias estatísticas (média, mediana, moda, regressão...) imputar os valores faltantes e levar em consideração a incerteza relacionada (fazer múltiplas imputações, usar média considerando desvio padrão, considerar a tendência da distribuição) usar estratégias estatísticas considerando asserções sobre o relacionamento com os exemplares disponíveis Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

50 Valores faltantes (missing values), outliers e ruídos Outliers... Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

51 Valores faltantes (missing values), outliers e ruídos Ruído Exemplares imperfeitos que podem ser derivados do processo de aquisição, transformação ou rotulação, por exemplo. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

52 Valores faltantes (missing values), outliers e ruídos Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

53 Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira Universidade do Sul de Santa Catarina Ciência da Computação Técnicasde InteligênciaArtificial Aula 09 Introdução a Análise de Textos Prof. Max Pereira Processamento de Linguagem Natural Conjunto de técnicas

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Pré-processamento de documentos Organização e Recuperação de Informação(GSI521) Introdução O pré-processamento de

Leia mais

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Motivação e Objetivos Etapas do Desenvolvimento de um Sistema de Recuperação de Informações (SRI): Pré-processamento; Representação; Extração

Leia mais

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão DATA MINING & MACHINE LEARNING (I) Thiago Marzagão transformando textos em dados Documento 1: Não trabalho para ter clientes; tenho clientes para poder trabalhar. Documento 2: Não se pode forçar a inteligência

Leia mais

Recuperação de Informação

Recuperação de Informação Recuperação de Informação Avaliação de Desempenho de Sistemas de Recuperação de Informação Renato Fernandes Corrêa 1 Para que avaliar? Existem muitos modelos de RI, mas qual é o melhor? Qual a melhor escolha

Leia mais

Aprendizado de Supervisionado

Aprendizado de Supervisionado Aprendizado de Supervisionado Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Padronizando e Normalizando os Atributos 2. Tipos de Atributos 3. Representação Textual 1 Padronizando e

Leia mais

2 Processo de Agrupamentos

2 Processo de Agrupamentos 20 2 Processo de Agrupamentos A análise de agrupamentos pode ser definida como o processo de determinação de k grupos em um conjunto de dados. Para entender o que isso significa, observe-se a Figura. Y

Leia mais

Estatística Descritiva

Estatística Descritiva C E N T R O D E M A T E M Á T I C A, C O M P U T A Ç Ã O E C O G N I Ç Ã O UFABC Estatística Descritiva Centro de Matemática, Computação e Cognição March 17, 2013 Slide 1/52 1 Definições Básicas Estatística

Leia mais

Mineração de Textos. Mineração de Textos

Mineração de Textos. Mineração de Textos Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semi-estruturados

Leia mais

Pré-Processamento de Documentos

Pré-Processamento de Documentos Pré-Processamento de Documentos Introdução Pré-Processamento : Análise léxica; Stopwords; Stemming; Vocabulário; Thesaurus Compressão: Fundamentos; Método Estatístico; Método Dicionário; Arquivos Invertidos

Leia mais

MINERAÇÃO DE DADOS. Thiago Marzagão MINERAÇÃO DE TEXTOS. marzagao.1@osu.edu. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/2016 1 / 25

MINERAÇÃO DE DADOS. Thiago Marzagão MINERAÇÃO DE TEXTOS. marzagao.1@osu.edu. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/2016 1 / 25 MINERAÇÃO DE DADOS Thiago Marzagão marzagao.1@osu.edu MINERAÇÃO DE TEXTOS Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/2016 1 / 25 transformando textos em dados Documento 1: "Não trabalho para ter clientes;

Leia mais

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU Aula 7 Medidas de Distância Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof Andre C. P. L. F. Carvalho Agradecimentos Ao professor André

Leia mais

Programa do Curso. Transformação de Dados. Sistemas Inteligentes Aplicados. Carlos Hall. Discretização de Variáveis Contínuas

Programa do Curso. Transformação de Dados. Sistemas Inteligentes Aplicados. Carlos Hall. Discretização de Variáveis Contínuas Sistemas Inteligentes Aplicados Carlos Hall Programa do Curso Limpeza/Integração de Dados Transformação de Dados Discretização de Variáveis Contínuas Transformação de Variáveis Discretas em Contínuas Transformação

Leia mais

Considerações de Desempenho

Considerações de Desempenho Back Propagation Considerações de Desempenho Dicas para o BP O uso da função de ativação simétrica geralmente acelera o treinamento TANH +1 logistic linear 0 tanh -1-4 +4 1 Dicas para o BP Os pesos devem

Leia mais

Back Propagation. Dicas para o BP

Back Propagation. Dicas para o BP Back Propagation Considerações de Desempenho Dicas para o BP O uso da função de ativação simétrica geralmente acelera o treinamento TANH +1 logistic linear 0 tanh -1-4 +4 11 Dicas para o BP Os pesos devem

Leia mais

Determinação de vícios refrativos oculares utilizando Support Vector Machines

Determinação de vícios refrativos oculares utilizando Support Vector Machines Determinação de vícios refrativos oculares utilizando Support Vector Machines Giampaolo Luiz Libralão, André Ponce de Leon F. de Carvalho, Antonio Valerio Netto, Maria Cristina Ferreira de Oliveira Instituto

Leia mais

SUPPORT VECTOR MACHINE - SVM

SUPPORT VECTOR MACHINE - SVM SUPPORT VECTOR MACHINE - SVM Definição 2 Máquinas de Vetores Suporte (Support Vector Machines - SVMs) Proposto em 79 por Vladimir Vapnik Um dos mais importantes acontecimentos na área de reconhecimento

Leia mais

4 Recuperação de Informação

4 Recuperação de Informação 4 Recuperação de Informação No presente capítulo são apresentados os fundamentos da área de Recuperação de Informação utilizados em Mineração de Textos, como por exemplo, os modelos de representação de

Leia mais

GSI024 - Organização e Recuperação da

GSI024 - Organização e Recuperação da GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI Arquivo 5 - Peso de termos GSI024-ORI Pg:5. 1 Busca paramétrica usando atributos Regiões em documentos

Leia mais

Mineração de Dados em Biologia Molecular

Mineração de Dados em Biologia Molecular Mineração de Dados em Biologia Molecular Principais tópicos André C. P. L. F. de Carvalho Monitor: Valéria Carvalho Métodos baseados em distância Aprendizado baseado em instâncias Conceitos básicos KNN

Leia mais

Indexação e Construção de Índice. Renato Fernandes Corrêa

Indexação e Construção de Índice. Renato Fernandes Corrêa Indexação e Construção de Índice Renato Fernandes Corrêa Indexação de documentos Consiste de três passos: 1. Definição do vocabulário de indexação 2. Indexação - atribuição de termos de indexação a cada

Leia mais

Aprendizado de Supervisionado

Aprendizado de Supervisionado Aprendizado de Supervisionado Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Aprendendo com Exemplos 2. Classificação 3. Conceitos Gerais 4. Vizinho Mais Próximo 1 Aprendendo com Exemplos

Leia mais

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis: Back Propagation Fatores importantes para a modelagem da Rede Neural: Seleção de variáveis; veis; Limpeza dos dados; Representação das variáveis veis de entrada e saída; Normalização; Buscando melhor Generalização

Leia mais

Trabalho 2 - Detalhamento

Trabalho 2 - Detalhamento Trabalho 2 - Detalhamento Clodoaldo A. M. Lima, Sarajane M. Peres 7 de outubro de 2015 Programa de Pós-Graduação em Sistemas de Informação Mestrado acadêmico - EACH - USP http://ppgsi.each.usp.br Clodoaldo

Leia mais

Física Geral - Laboratório. Aula 3: Estimativas e erros em medidas diretas (I)

Física Geral - Laboratório. Aula 3: Estimativas e erros em medidas diretas (I) Física Geral - Laboratório Aula 3: Estimativas e erros em medidas diretas (I) 1 Experimentos: medidas diretas Experimento de medidas diretas de uma grandeza: Aquisição de um conjunto de dados através de

Leia mais

Descoberta de conhecimento em redes sociais e bases de dados públicas

Descoberta de conhecimento em redes sociais e bases de dados públicas Descoberta de conhecimento em redes sociais e bases de dados públicas Trabalho de Formatura Supervisionado Bacharelado em Ciência da Computação - IME USP Aluna: Fernanda de Camargo Magano Orientadora:

Leia mais

Física Geral (2013/1) Aula 3: Estimativas e erros em medidas diretas (I)

Física Geral (2013/1) Aula 3: Estimativas e erros em medidas diretas (I) Física Geral (2013/1) Aula 3: Estimativas e erros em medidas diretas (I) 1 Experimentos: medidas diretas Experimento de medidas diretas de uma grandeza: Aquisição de um conjunto de dados através de medições

Leia mais

Lista de exercícios 2 Recuperação de Informação Textual

Lista de exercícios 2 Recuperação de Informação Textual Lista de exercícios 2 Recuperação de Informação Textual 2 de dezembro de 2015 0.1 O que é o modelo bag-of-words? Porque ele é uma simplificação? Dê um exemplo em que ele estaria incorreto. 0.2 O que é

Leia mais

Realimentação de Relevância

Realimentação de Relevância Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Ciclo de realimentação onde uma consulta q recebida do usuário é transformada em uma consulta modificada

Leia mais

Consultas por Similaridade em Domínios de Dados Complexos

Consultas por Similaridade em Domínios de Dados Complexos Consultas por Similaridade em Domínios de Dados Complexos Guilherme Felipe Zabot Orientador: Profº Dr Caetano Traina Jr Roteiro Objetivo Introdução Dados Complexos Representação de Dados Complexos Extração

Leia mais

Tópicos em Mineração de Dados

Tópicos em Mineração de Dados Tópicos em Mineração de Dados Descoberta de agrupamentos Método k-médias 1. Introdução A descoberta de agrupamentos é uma tarefa descritiva que procura agrupar dados utilizando a similaridade dos valores

Leia mais

Indexação automática. CBD/ECA Indexação: teoria e prática

Indexação automática. CBD/ECA Indexação: teoria e prática Indexação automática CBD/ECA Indexação: teoria e prática Indexação documentária Identificar pela análise dos documentos, os seus assuntos extrair os conceitos que indicam o seu conteúdo traduzir os conceitos

Leia mais

SCC0173 Mineração de Dados Biológicos

SCC0173 Mineração de Dados Biológicos SCC0173 Mineração de Dados Biológicos Preparação de Dados: Parte A Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões: dos originais gentilmente

Leia mais

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação Física Geral - Laboratório Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação 1 Física Geral - Objetivos Ao final do período, o aluno deverá ser capaz de compreender as principais

Leia mais

Melhorando a Recuperação de Informação

Melhorando a Recuperação de Informação Recuperação de Informação e Web Mining 1 Melhorando a Recuperação de Informação O modelo de espaço vetorial Utiliza pesos para termos Permite o ranqueamento dos resultados Pode reduzir a dimensão do espaço

Leia mais

Estatística Descritiva e Exploratória

Estatística Descritiva e Exploratória Gledson Luiz Picharski e Wanderson Rodrigo Rocha 9 de Maio de 2008 Estatística Descritiva e exploratória 1 Váriaveis Aleatórias Discretas 2 Variáveis bidimensionais 3 Váriaveis Aleatórias Continuas Introdução

Leia mais

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação Física Geral - Laboratório Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação 1 Física Geral - Objetivos Ao final do período, o aluno deverá ser capaz de compreender as principais

Leia mais

Pedro Oliveira

Pedro Oliveira Pedro Oliveira pcoliv@student.dei.uc.pt O que é a radicalização Aplicações Radicalização em Inglês Radicalização em Português Experiência com algoritmos para o Português Vantagens e Desvantagens 2 Processo

Leia mais

Roteiro. PCC142 / BCC444 - Mineração de Dados. Por que pré-processar os dados? Introdução. Limpeza de Dados

Roteiro. PCC142 / BCC444 - Mineração de Dados. Por que pré-processar os dados? Introdução. Limpeza de Dados Roteiro PCC142 / BCC444 - Mineração de Dados Introdução Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br www.decom.ufop.br/luiz

Leia mais

Identifique um número! MINERAÇÃO DE DADOS E TEXTOS MOTIVAÇÃO. Observe a imagem... SCC-230 Inteligência Artificial

Identifique um número! MINERAÇÃO DE DADOS E TEXTOS MOTIVAÇÃO. Observe a imagem... SCC-230 Inteligência Artificial MINERAÇÃO DE DADOS E TEXTOS SCC-230 Inteligência Artificial Solange Oliveira Rezende Bruno Magalhães Nogueira Thiago A. S. Pardo MOTIVAÇÃO Observe a imagem... Identifique um número! 2 1 MOTIVAÇÃO 3 MOTIVAÇÃO

Leia mais

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação Física Geral - Laboratório Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação 1 Física Geral - Objetivos Ao final do período, o aluno deverá ser capaz de compreender as principais

Leia mais

3 Recuperação de Informações Textuais

3 Recuperação de Informações Textuais 3 Recuperação de Informações Textuais Tudo deveria se tornar o mais simples possível, mas não simplificado. Albert Einstein Sistemas tradicionais de indexação costumam utilizar-se de termos-índice, que

Leia mais

Visualização de Texto e Documento

Visualização de Texto e Documento Visualização de Texto e Documento SCC5836 Visualização Computacional Prof. Fernando V. Paulovich http://www.icmc.usp.br/~paulovic paulovic@icmc.usp.br Instituto de Ciências Matemáticas e de Computação

Leia mais

Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade

Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade Universidade de São Paulo - USP Instituto de Ciências Matemáticas e de Computação - ICMC Programa de Pós-Graduação em Ciências da Computação e Matemática Computacional Ambiente de Data Warehouse Para Imagens

Leia mais

Análise de Regressão Linear Simples e

Análise de Regressão Linear Simples e Análise de Regressão Linear Simples e Múltipla Carla Henriques Departamento de Matemática Escola Superior de Tecnologia de Viseu Introdução A análise de regressão estuda o relacionamento entre uma variável

Leia mais

Aula 03: Dados Profa. Ms. Rosângela da Silva Nunes

Aula 03: Dados Profa. Ms. Rosângela da Silva Nunes Aula 03: Dados Profa. Ms. Rosângela da Silva Nunes 1 de 29 Tipos de Conjuntos de dados Registro Tabela do BD Matriz de dados Document 1 Document 2 team coach pla y ball score game wi n lost timeout 3 0

Leia mais

SCC0173 Mineração de Dados Biológicos

SCC0173 Mineração de Dados Biológicos SCC073 Mineração de Dados Biológicos Análise Exploratória de Dados Parte A: Revisão de Estatística Descritiva Elementar Prof. Ricardo J. G. B. Campello SCC / ICMC / USP Tópicos Análise Exploratória de

Leia mais

6 Atributos. A dívida da empresa subiu.

6 Atributos. A dívida da empresa subiu. 6 Atributos Para buscar o sentimento de um texto automaticamente precisamos encontrar boas pistas ao longo do discurso. Uma grande variedade de palavras e expressões possui conotação positiva ou negativa,

Leia mais

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão DATA MINING & MACHINE LEARNING (I) Thiago Marzagão problema de trabalhar c/ textos: dimensionalidade A quantidade de colunas cresce rapidamente com a quantidade de documentos problema de trabalhar c/ textos:

Leia mais

Laboratório Física Geral

Laboratório Física Geral Laboratório Física Geral 1 Lab Física Geral Professora Helena Malbouisson Sala 3018A. email da turma: labfisicageraluerj@gmail.com 2 Objetivos do curso Organizar e descrever conjuntos de dados (histogramas);

Leia mais

8 JÚLIO CESAR R. PEREIRA

8 JÚLIO CESAR R. PEREIRA SUMÁRIO Lista de Tabelas... 09 Lista de Figuras... 11 Agradecimentos... 15 Apresentação... 17 Prefácio... 19 1. O Dado Qualitativo... 21 O Dado e o Evento... 21 A Análise de Dados Qualitativos e a Pesquisa

Leia mais

Algoritmos e Estruturas de Dados II. Trabalho Prático 4

Algoritmos e Estruturas de Dados II. Trabalho Prático 4 Algoritmos e Estruturas de Dados II Trabalho Prático 4 Entrega: 23/11/09 Devolução: 10/12/09 (sem possibilidade de entrega com atraso) Trabalho em dupla Prof. Jussara Marques de Almeida Problema 1: Construção

Leia mais

Introdução às Redes Neurais Artificiais

Introdução às Redes Neurais Artificiais Introdução às Redes Neurais Artificiais Clusterização: Conceitos Básicos Prof. João Marcos Meirelles da Silva www.professores.uff.br/jmarcos Departamento de Engenharia de Telecomunicações Escola de Engenharia

Leia mais

Ponderação de termos

Ponderação de termos Ponderação de termos Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Parte da ideia de que, dentro

Leia mais

Operações Pontuais. 1 operando. 2 operandos. Processamento e Análise de Imagem - A. J. Padilha - v ac

Operações Pontuais. 1 operando. 2 operandos. Processamento e Análise de Imagem - A. J. Padilha - v ac Operações Pontuais 1 operando T OP 2 operandos Pré-Processamento - 1 Operações Pontuais Nas operações pontuais, cada ponto da imagem-resultado - g(i,j) - é obtido por uma transformação T do ponto de coordenadas

Leia mais

Term weighting: outras ideias

Term weighting: outras ideias Term weighting: outras ideias Term Weighting i Diversas são as abordagens. Vamos discutir algumas ideias mais simples, porém conhecidas. i Abordagens 4 Pesos binários (já vimos) 4 Frequência (já vimos)

Leia mais

Extração de Conhecimento & Mineração de Dados

Extração de Conhecimento & Mineração de Dados Extração de Conhecimento & Mineração de Dados Nesta apresentação é dada uma breve introdução à Extração de Conhecimento e Mineração de Dados José Augusto Baranauskas Departamento de Física e Matemática

Leia mais

Determinação do Grau de Similaridade entre Frases

Determinação do Grau de Similaridade entre Frases Determinação do Grau de Similaridade entre Frases UC 21095 Projeto Final Licenciatura em Informática Estudante nº 1100194: Helena Sofia Felisberto Coelho Orientadora: Prof.ª Gracinda Carvalho Lisboa, setembro

Leia mais

Mineração de Dados. Dados Escalar Cardinalidade Porque pré-processar dados?

Mineração de Dados. Dados Escalar Cardinalidade Porque pré-processar dados? Mineração de Dados Pré-Processamento de Dados 1 Sumário Dados Escalar Cardinalidade Porque pré-processar dados? Limpeza de Dados Integração e Transformação Redução de Dados Discretização 2 1 Dados Medidas

Leia mais

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Extração de Características

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Extração de Características Universidade Federal do Paraná Departamento de Informática Reconhecimento de Padrões Extração de Características Luiz Eduardo S. Oliveira, Ph.D. http://lesoliveira.net Objetivos Entender os conceitos de

Leia mais

AGA Análise de Dados em Astronomia I. 1. Introdução

AGA Análise de Dados em Astronomia I. 1. Introdução 1 / 22 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 1. Introdução Laerte Sodré Jr. 1o. semestre, 2019 2 / 22 introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que

Leia mais

SCC0173 Mineração de Dados Biológicos

SCC0173 Mineração de Dados Biológicos SCC0173 Mineração de Dados Biológicos Preparação de Dados: Parte B Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões: dos originais gentilmente

Leia mais

Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta

Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta Professor: Eduardo R Hruschka Estagiário PAE: Luiz F S Coletta (luizfsc@icmcuspbr) Sumário Definição do projeto 1 Desenvolvimento de algoritmo de Aprendizado de Máquina (AM); 2 Pré-processamento dos dados;

Leia mais

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Luciana Kayo e Paulo Mei Prof. Dr. Marco Dimas Gubitoso Introdução Inspiração na competição When Bag of Words

Leia mais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto O processo de descoberta do conhecimento - KDD Roteiro Introdução Definição Etapas Desafios

Leia mais

Física Geral - Laboratório. Organização e descrição de dados

Física Geral - Laboratório. Organização e descrição de dados Física Geral - Laboratório Organização e descrição de dados 1 Física Geral - Laboratório A nota de laboratório de Física Geral será composta dos resultados das provas e atividades de laboratório: Média

Leia mais

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Tipos de Aprendizagem. Luiz Eduardo S. Oliveira, Ph.D.

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Tipos de Aprendizagem. Luiz Eduardo S. Oliveira, Ph.D. Universidade Federal do Paraná Departamento de Informática Reconhecimento de Padrões Tipos de Aprendizagem Luiz Eduardo S. Oliveira, Ph.D. http://lesoliveira.net Objetivos Introduzir diferentes tipos de

Leia mais

2 Reconhecimento Facial

2 Reconhecimento Facial 2 Reconhecimento Facial Em termos gerais, o reconhecimento facial é o processo pelo qual se mede o grau de similaridade entre duas imagens faciais com o proposito de identificar a um indivíduo ou de verificar

Leia mais

ANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA

ANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA CURTA DURAÇÃO ANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA CARGA HORÁRIA: 80 horas COORDENAÇÃO: Prof.ª Dr.ª Alessandra de Ávila Montini OBJETIVOS Introduzir o conceito de Big Data,

Leia mais

Aprendizado de Máquinas. Introdução à Aprendizado Não- Supervisionado

Aprendizado de Máquinas. Introdução à Aprendizado Não- Supervisionado Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Aprendizado de Máquinas Introdução à Aprendizado Não- Supervisionado David Menotti, Ph.D. http://web.inf.ufpr.br/menotti Objetivos

Leia mais

Distribuições Contínuas de Probabilidade

Distribuições Contínuas de Probabilidade Distribuições Contínuas de Probabilidade Uma variável aleatória contínua é uma função definida sobre o espaço amostral, que associa valores em um intervalo de números reais. Exemplos: Espessura de um item

Leia mais

Noções de Exatidão, Precisão e Resolução

Noções de Exatidão, Precisão e Resolução Noções de Exatidão, Precisão e Resolução Exatidão: está relacionada com o desvio do valor medido em relação ao valor padrão ou valor exato. Ex : padrão = 1,000 Ω ; medida (a) = 1,010 Ω ; medida (b)= 1,100

Leia mais

Ferramentas para Recuperação e Mineração de Informações

Ferramentas para Recuperação e Mineração de Informações Ferramentas Java para Recuperação e Mineração de Informações Fabrício J. Barth 1,2 1 Fundação Atech Tecnologias Críticas (fbarth@atech.br) 2 Centro Universitário SENAC (fabricio.jbarth@sp.senac.br) 9 de

Leia mais

PROCESSAMENTO DIGITAL DE IMAGENS (SERP11) TRANSFORMAÇÕES LINEARES: COMPONENTES PRINCIPAIS, TASSELED CAP, IHS. Daniel C. Zanotta

PROCESSAMENTO DIGITAL DE IMAGENS (SERP11) TRANSFORMAÇÕES LINEARES: COMPONENTES PRINCIPAIS, TASSELED CAP, IHS. Daniel C. Zanotta PROCESSAMENTO DIGITAL DE IMAGENS (SERP11) TRANSFORMAÇÕES LINEARES: COMPONENTES PRINCIPAIS, TASSELED CAP, IHS Daniel C. Zanotta ANÁLISE POR PRINCIPAIS COMPONENTES Conceitos básicos Espalhamento bi-dimensional:

Leia mais

AULA 02 Distribuição de Probabilidade Normal

AULA 02 Distribuição de Probabilidade Normal 1 AULA 02 Distribuição de Probabilidade Normal Ernesto F. L. Amaral 20 de agosto de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario

Leia mais

Motivação. VA n-dimensional. Distribuições Multivariadas VADB

Motivação. VA n-dimensional. Distribuições Multivariadas VADB Motivação Em muitas situações precisamos lidar com duas ou mais variáveis aleatórias ao mesmo tempo. Por exemplo o comprimento e a largura de uma Prof. Lorí Viali, Dr. viali@mat.ufgrs.br http://www.mat.ufrgsbr/~viali/

Leia mais

Thiago Marzagão LSA, LDA

Thiago Marzagão LSA, LDA MINERAÇÃO DE DADOS Thiago Marzagão marzagao.1@osu.edu LSA, LDA Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1 / 16 problema de trabalhar c/ textos: dimensionalidade A quantidade de colunas cresce rapidamente

Leia mais

Processamento de Malhas Poligonais

Processamento de Malhas Poligonais Processamento de Malhas Poligonais Tópicos Avançados em Computação Visual e Interfaces I Prof.: Marcos Lage www.ic.uff.br/~mlage mlage@ic.uff.br Conteúdo: Notas de Aula Curvas 06/09/2015 Processamento

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 01 Motivação, áreas de aplicação e fundamentos Max Pereira Nem todo conhecimento tem o mesmo valor. O que torna determinado conhecimento mais importante que

Leia mais

MÉTODOS QUANTITATIVOS PARA CIÊNCIA DA COMPUTAÇÃO EXPERIMENTAL

MÉTODOS QUANTITATIVOS PARA CIÊNCIA DA COMPUTAÇÃO EXPERIMENTAL MÉTODOS QUANTITATIVOS PARA CIÊNCIA DA COMPUTAÇÃO EXPERIMENTAL Pedro Henrique Bragioni Las Casas Pedro.lascasas@dcc.ufmg.br Apresentação baseada nos slides originais de Jussara Almeida e Virgílio Almeida

Leia mais

Estatísticas Descritivas. Estatística

Estatísticas Descritivas. Estatística Estatística Estatísticas descritivas: usadas para mostrar/descrever algumas informações da amostra, ou seja, servem para fazer um resumo ou descrição dos dados. Não consideram a origem dos dados. Exemplos:

Leia mais

SERVIÇO SOCIAL DA INDÚSTRIA SESI-SP PROCESSO SELETIVO 004/2017 ANEXO II CONTEÚDO PROGRAMÁTICO

SERVIÇO SOCIAL DA INDÚSTRIA SESI-SP PROCESSO SELETIVO 004/2017 ANEXO II CONTEÚDO PROGRAMÁTICO SERVIÇO SOCIAL DA INDÚSTRIA SESI-SP PROCESSO SELETIVO 004/2017 ENFERMEIRO DO TRABALHO ENGENHEIRO DE SEGURANÇA DO TRABALHO GUARDA-VIDAS ANEXO II CONTEÚDO PROGRAMÁTICO ENFERMEIRO DO TRABALHO 1. Compreensão

Leia mais

Computação Gráfica. Engenharia de Computação. CEFET/RJ campus Petrópolis. Prof. Luis Retondaro. Aula 3. Transformações Geométricas

Computação Gráfica. Engenharia de Computação. CEFET/RJ campus Petrópolis. Prof. Luis Retondaro. Aula 3. Transformações Geométricas Computação Gráfica Engenharia de Computação CEFET/RJ campus Petrópolis Prof. Luis Retondaro Aula 3 Transformações Geométricas no plano e no espaço Introdução (Geometria) 2 Pontos, Vetores e Matrizes Dado

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

Redes Neurais e Sistemas Fuzzy

Redes Neurais e Sistemas Fuzzy Redes Neurais e Sistemas Fuzzy O ADALINE e o algoritmo LMS O ADALINE No contexto de classificação, o ADALINE [B. Widrow 1960] pode ser visto como um perceptron com algoritmo de treinamento baseado em minimização

Leia mais

RECONHECIMENTO DE PADRÕES - RP

RECONHECIMENTO DE PADRÕES - RP RECONHECIMENTO DE PADRÕES - RP Definições Básicas O que é? 2 Ramo do aprendizado de máquina Consiste em atribuir um rótulo (ou classe) para uma certa amostra ou valor de entrada Exemplo: classificação

Leia mais

Física Geral - Laboratório. Organização e descrição de dados

Física Geral - Laboratório. Organização e descrição de dados Física Geral - Laboratório Organização e descrição de dados 1 Física Geral - Laboratório A nota de laboratório de Física Geral será composta dos resultados das provas e atividades de laboratório: Média

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 13 Algoritmo k-means Clusterização Max Pereira Algoritmo k-means 1. Para um determinado cluster de dados C precisamos calcular sua média m k : m k i i: C(

Leia mais

Tipo Likert X Escala Likert

Tipo Likert X Escala Likert Tipo Likert X Escala Likert Tipo Likert X Escala Likert Ricardo Ramos de Oliveira Universidade de São Pulo (ICMC-USP) E-mail: ricardoramos.usp@gmail.com Likert Qual a forma correta de analisar dados Likert?

Leia mais

Características Básicas

Características Básicas Características Básicas Software de simulação matemática; Realiza operações matriciais,constrói gráficos em 2D e 3D,ajuda no processamento de sinais; Facilidade na linguagem em um ambiente interativo;

Leia mais

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 08

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 08 Teoria das Filas aplicadas a Sistemas Computacionais Aula 08 Universidade Federal do Espírito Santo - Departamento de Informática - DI Laboratório de Pesquisas em Redes Multimidia - LPRM Teoria das Filas

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Viali, Dr. viali@mat.ufgrs.br http://www.mat.ufrgsbr/~viali/ Motivação Em muitas situações precisamos lidar com duas ou mais variáveis aleatórias ao mesmo tempo. Por exemplo o comprimento e

Leia mais

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012 1 AULA 09 Regressão Ernesto F. L. Amaral 17 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução à

Leia mais

GSI024 - Organização e Recuperação da

GSI024 - Organização e Recuperação da GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI Arquivo 6 - Modelo Vetorial GSI024-ORI Pg:6. 1 Ranking baseado no modelo vetorial Considerações

Leia mais

Conceito de Estatística

Conceito de Estatística Conceito de Estatística Estatística Técnicas destinadas ao estudo quantitativo de fenômenos coletivos, observáveis. Unidade Estatística um fenômeno individual é uma unidade no conjunto que irá constituir

Leia mais

2.3 Operações sobre uma variável aleatória - Esperança matemática

2.3 Operações sobre uma variável aleatória - Esperança matemática matemática 58 atingir a mosca dado que ele atingiu o alvo. Exercício 2.33. [3] Duas caixas tem bolas vermelhas, verdes e azuis dentro; a quantidade de cada uma é dada a seguir. Caixa 01-5 vermelhas; 35

Leia mais

Apresentação Prefácio Lista de tabelas e figuras 17

Apresentação Prefácio Lista de tabelas e figuras 17 Sumário Apresentação Prefácio Lista de tabelas e figuras 17 Introdução 19 Organização da sexta edição 20 Mudanças específicas na sexta edição 20 Como usar o Manual de Publicação 22 1 Escrevendo para as

Leia mais

Recuperação de Informações por Álgebra Linear Computacional

Recuperação de Informações por Álgebra Linear Computacional Recuperação de Informações por Álgebra Linear Computacional MAC499 - Projeto de Iniciação Científica Aluna: Ellen Hidemi Fukuda Orientador: Paulo José da Silva e Silva Departamento de Ciência da Computação

Leia mais