Pré-processamento de dados
|
|
- Antônio Caldeira Aquino
- 5 Há anos
- Visualizações:
Transcrição
1 Pré-processamento de dados Clodoaldo A. M. Lima, Sarajane M. Peres 13 de agosto de 2015 Programa de Pós-Graduação em Sistemas de Informação Mestrado acadêmico - EACH - USP Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
2 Pré-processamento de dados textuais Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
3 Pré-processamento de dados textuais Dados textuais Para realização da análise automática de textos, seja com fins de resolução de tarefas de mineração sobre dados textuais, processamento de linguagem natural ou recuperação de informação, é necessário preparar a coleção de documentos textuais (o corpus) a fim de adequá-los ao processamento automático. Alguns dos procedimentos apresentados ao longo dessa aula são comumente aplicados a todas as áreas citadas, outros são mais adequados para uso em uma ou outra área citada. Um conjunto de dados organizado a partir de um corpus Um conjunto de n documentos X = {doc 1, doc 2,..., doc n}. Cada um dos documentos, por sua vez, é definido como um conjunto de m termos (radicais, palavras ou conjunto de palavras), na forma doc i = {wt 1, wt 2,..., wt m}, sendo que wt j pode assumir valores boolenos ou reais. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
4 Pré-processamento de dados textuais Lei de Zipft Lei empírica que diz que: a n th maior frequência de ocorrência de uma palavra em uma ĺıngua é inversamente proporcional ao seu posto {rank}. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
5 Pré-processamento de dados textuais O experimento de Luhn mostrou que palavras muito frequentes num texto, assim como palavras raras, não são significativas para caracterizá-lo. Com base em seus testes empíricos, ele propôs uma curva normal centrada na palavra de frequência média para indicar o poder de resolução (resolving power) de palavras significativa. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
6 Pré-processamento de dados textuais Alta dimensionalidade e alto grau de espasidade Os conjunos de dados X gerados a partir de um corpus possuem alta dimensionalide e alto grau de esparsidade (a proporção de zeros na matriz é muito alta). Maldição da dimensionalidade Diz respeito ao aumento exponencial do volume associado quando se adiciona dimensões extras a um espaço matemático. Assim, quanto mais características descritivas for necessário processar, maior a quantidade de exemplares necessários para obter um modelo que explique os dados (em algum sentido). Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
7 Pré-processamento de dados textuais Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
8 Pré-processamento de dados textuais Preparação dos documentos Há uma série de procedimentos que são úteis para preparar uma coleção de documentos antes que ela seja representada como um conjunto de dados X. análise léxica (tokenizing) eliminação de stopwords; redução dos termos aos seus radicais; Vector Space Model - VSM Modelo de representação dos textos em um espaço de vetores. Cada documento é um vetor de termos (index term). Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
9 Pré-processamento de dados textuais Análise léxica eliminação de caracteres de pontuação e outros caracteres; determinação de um separador para separação das palavras (criação da lista de termos inicial); eliminação de dígitos e acentos; alteração da capitalização das palavras. Problemas U.S us ou u s; campo grande Campo Grande; 510 D.C dc; mangá manga; http www each usp br sarajane; Tomada de decisão dependente do contexto. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
10 Pré-processamento de dados textuais Eliminação de stopwords Stopwords é uma lista de palavras muito comum em uma ĺıngua, e que não tem potencial para contribuir para a caracterização do conteúdo presente no texto. Nessa lista geramente estão: artigos definidos e indefinidos, preposições, pronomes, numerais, conjunções e advérbios. Além das palavras pertencentes a essas classes gramaticais, podem entrar na lista as palavras muito comuns dentro do contexto referente aos documentos do corpus. Exemplos Leia mais num portal de notícias escola ou professor tem textos de monografias de uma especialização em Ética, valores e cidadania na escola ; A eliminação de stopwords pode representar uma redução de 30% a 50% o tamanho dos textos. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
11 Pré-processamento de dados textuais Redução dos termos aos seus radicais Um termo no documento pode sofrer variações como plural, gerúndio, verbos flexionados, aumentativo, diminutivo e etc. Com a redução do termo ao seu radical, processo também conhecido por stemming, os prefixos e sufixos são eliminados, possibilitando a uniformização de termos. Exemplos - Snowball para português quilos quil / bóia bói / boiando boi Stemmers Snowball PTStemmer Problemas - exemplos no inglês factual fact (sufixo UAL) equal eq (sufixo UAL) absorb absor (sufixo B) absorpt absor (sufixo PT) Esse processo também tem o efeito de reduzir o tamanho de um documento. Há experimentos que apontam 5% de redução. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
12 Pré-processamento de dados textuais Space Vector Model - construção do conjunto C representação binária representação por frequência representação tf-idf representação tf-idf normalizado Representação binária Representação simplificada na qual valores binários (ou pesos binários) indicam a presença ou ausência do termo em um documento. Os termos presentes possuem todos a mesma importância na representação de um documento. doc 1 = {0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1} Os dois mais importantes fatores que direcionam a efetividade de uma representação: exaustividade (completude) da indexação e especificidade da representação. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
13 Pré-processamento de dados textuais Representação por frequência - term frequency tf Representação na qual a frequência de um termo no documento é associada ao peso do termo na representação daquele documento. doc 1 = {3, 6, 1, 0, 0, 4, 9, 1, 1, 0, 0, 0, 0, 6, 0, 0, 3, 0, 0, 12, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 3} Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
14 Pré-processamento de dados textuais Existem termos com frequência maior que possuem poder de resolução mais baixo do que termos com frequência menor. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
15 Pré-processamento de dados textuais Exaustividade (completude) da indexação - exhaustivity of indexing Número de termos associados a um dado documento. Número de tópicos diferentes que foram indexados. Especificidade da representação - specificity of the index language Número de documentos ao qual um dado termo está associado dentro de uma coleção de documentos. Habilidade de representação em descrever um tópico precisamente. Nosso problema é encontrar um trade-off entre os objetivos acima. É necessário atribuir pesos aos índices de forma maximizar a chance de encontrar esse trade-off. Precisão X Revocação - Precision X Recall - na recuperação de informação Precisão: proporção de documentos recuperados que são relevantes Revocação: proporção de documentos relevantes recuperados Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
16 Pré-processamento de dados textuais Frequência inversa nos documentos inverse document frequency idf idf (t j ) = log n nt j (1) em que n é o número de documentos no corpus e nt j é o número de documentos nos quais o termo t aparece. Representação por td-idf Representação na qual o peso associado a uma palavra é calculando considerando tanto a frequência com a qual ele aparece no texto, quanto ao número de documentos no qual ele aparece. tf idf (t j, doc i ) = tf (t j, doc i ) idf (t j ) (2) Nessa representação quanto maior a frequência do termo no documento, maior é a representatividade do termo para aquele documento; quanto maior o número de documentos no qual um termo aparece, menos discriminante o termo é; Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
17 Pré-processamento de dados textuais Representação por td-idf normalizado Representação na qual o peso associado a uma palavra é calculando considerando tanto a frequência com a qual ele aparece no texto, quanto o número de documentos no qual ele aparece. tf idf normalizado (t j, doc i ) = tf idf (t j, doc i ) s=1 ntermos (tf idf (ts, doc i )) 2 (3) Essa representação é útil pois coloca os pesos dentro do intervalo [0, 1] e também suaviza o efeito de diferenças entre os tamanhos dos documentos. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
18 Interpretações geométricas e similaridades Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
19 Interpretações geométricas e similaridades Interpretações geométricas Nossos exemplares, de um conjunto de dados, podem ser interpretados geométricamente (ou podem ser vistos como vetores em um espaço vetorial). Considere o exemplo dos gafanhotos e esperanças Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
20 Interpretações geométricas e similaridades Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
21 Interpretações geométricas e similaridades Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
22 Interpretações geométricas e similaridades Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
23 Interpretações geométricas e similaridades Similaridade É a qualidade, caráter ou condição de coisas similares (análogas, equivalentes, semelhantes). O problema é como identificar e como medir. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
24 Interpretações geométricas e similaridades Similaridade É a qualidade, caráter ou condição de coisas similares (análogas, equivalentes, semelhantes). O problema é como identificar e como medir. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
25 Interpretações geométricas e similaridades Distâncias são normalmente usadas como medida de similaridade entre objetos. Há uma variedade enorme de medidas de distâncias, e algumas delas são mais comuns nos algoritmos de mineração de dados: Manhattan, Hamming, Euclidiana. Alternativas ao uso de medidas de distâncias são medida como entropia, correlação e concordâncias; a comparação entre os dados é de outra natureza. Outras alternativas podem aparecer por aí... Propriedade de uma medida de distância: d(i, j) 0; d(i, i) = 0 d(i, j) = d(i, j) d(i, j) d(i, k) + d(k, j) Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
26 Interpretações geométricas e similaridades Distância Euclidiana d(i, j) = (x i1 x j1 ) 2 + (x i2 x j2 ) (x ip x jp ) 2 (4) Distância de Hamming Considerando duas strings de mesmo comprimento, a distância de Hamming fornece o número de posições nas quais as strings diferem. Entropia Comumente associada ao que se entende por desordem. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
27 Normalização de dados Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
28 Normalização de dados Normalização é um procedimento de pré-processamento de dados cujo objetivo é escalar os valores dos atributos de forma que todos fiquem ou dentro de um intervalo específico, por exemplo [0, 1] ou [-1, 1], ou distribuídos em torno de sua média de acordo com seu desvio padrão. Esse procedimento é especialmente útil quando os algoritmos de análise de dados são baseados em distância (similaridades e diferenças são mensuradas usando métricas de distância). Também é útil para acelerar o processo de convergência de um algoritmo de Machine Learning (como por exemplo, redes neurais artificiais). Valores normalizados são mais fáceis de interpretar. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
29 Normalização de dados (a) Conjunto de dados (b) Atributo X (c) Atributo Y Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
30 Normalização de dados Plotando o conjunto de dados com os valores originais, usando diferentes escalas para visualização no eixo x (atributo X). (d) (e) (f) Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
31 Normalização de dados Distância euclidiana entre exemplares (entre os vetores), considerando apenas o atributo X, apenas o atributo Y (vetores unidimensionais) e considerando ambos os atributos (vetores bidimensionais) - ilustrando apenas a parte inicial da matriz de distâncias: (g) Dist. X (h) Dist. Y (i) Dist. XY Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
32 Normalização de dados Considere os exemplares (originais): (5 257) (7 114,56) (2 336,4) (5,5 332,8) - em vermelho no gráfico. Observe as distâncias (euclidiana). (j) (k) Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
33 Normalização de dados Normalização Min-max Trata-se de uma transformação linear sobre os valores originais de um atributo A. Sendo min A e max A os valores mínimos e máximos de um atributo, o procedimento mapeia um valor v de A para v no intervalo [new min A, new max A, estabelecidos pelo analista de dados, computando: v = v min A max A min A (new maxa new mina) + new min A (5) Essa transformação preserva o relacionamento entre os valores originais. Observe que os valores min A e max A precisam ser defindos com cuidado, ou uma entrada futura pode cair fora desses intervalos e causar um problema na preservação dos relacionamentos originais. Os min A e max A precisam ser armazenados para que possam ser usados na normalização de novos exemplares. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
34 Normalização de dados Plotando o conjunto de dados normalizado - Min-max - intervalo [0,1] (l) Min-max (m) Original (n) Normalizado Os valores de mínimo e máximo do atributo A foram tomados dentre os valores existentes no atributo. min x = 1.7 min y = 45.2 max x = 9.3 max y = Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
35 Normalização de dados Plotando o conjunto de dados normalizado - Min-max - intervalo [0,1] (o) Min-max (p) Original (q) Normalizado Os valores de mínimo e máximo do atributo A foram tomados nos limites do domínio dos atributos. min x = 0 min y = 10 max x = 10 max y = 1000 Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
36 Normalização de dados Considerando cada um dos casos de escolha dos valores de mínimo e máximo do atributo A, e tomando como entrada para a normalização, um novo exemplar: novo exemplar = (10, 999) novo exemplar x = 10 e novo examplar y = 999 Seguindo a primeira normalização (mínimo e máximo dentro dos valores dos exemplares existentes: x norm = 1.09 y norm = 1.08 Seguindo a segunda normalização (mínimo e máximo dentro dos limites do domínio x norm = 1 y norm = Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
37 Normalização de dados Distância euclidiana entre exemplares (entre os vetores), considerando o conjunto de dados original e o conjunto de dados normalizado (Minmax) (r) Dist. XY (s) Dist. XY norm Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
38 Normalização de dados Considere os exemplares (agora normalizados): (0,4342 0,2409) (0,6974 0,0789) (0,0395 0,3312) (0,5000 0,3271) - em vermelho no gráfico. E observe as distâncias (euclidiana). (t) (u) Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
39 Normalização de dados Normalização z-score Nesse caso, a normalização dos valores de um atributo A é realizada com base na média e no desvio padrão dos valores existentes no atributo. O valor v de A é transformado para v computando: v = v Ā σ A (6) onde Ā é a média dos valores existentes no atributo A e σ A é o desvio padrão do mesmo conjunto de vaores. Esse procedimento de normalização é útil principalmente quando os valores limites do domínio do atributo não são conhecidos, ou quando existem outliers no conjunto de valores. Essa normalização pode alterar levemente os relacionamentos originais entre os exemplares, inclusive contribuindo para suavizar efeitos de outliers. A suavização da presença de outliers pode ser melhorada também pela substuição da média pela mediana e do desvio padrão para o desvio padrão abosulto (σ abs A = m i=1 x i µ, onde x i é o i th valor do atributo A, m é o número de valores assumido pelo atributo A, e µ é ou a média ou a mediana dos valores do atributo A). Os valores Ā e σ A precisam ser armazenados para que possam ser usados na normalização de novos exemplares. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
40 Normalização de dados Plotando o conjunto de dados normalizado - z-score (v) z-score (w) Original (x) Normalizado Os valores de média e desvio padrão do conjunto original de valores assumido por A são: x = 4.78 ȳ = σ x = 2.25 σ y = Os coeficientes de variação (desvio padrão / média) são: cv x = cv y = Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
41 Normalização de dados Outro exemplo - com coeficientes de variação diferentes Onde x = ȳ = σ x = σ y = cv x = cv y = Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
42 Normalização de dados Normalização por escalonamento decimal Transforma os valores para decimais, da seguinte forma: v = v 10 j (7) onde j é igual a 1 se o maior valor absoluto no conjunto de valores do atributo A é < 10, é igual a 2 se o maior valor absoluto no conjunto de valores do atributo A é 10 e < 100, e assim por diante. Essa normalização pode alterar os relacionamentos originais entre os exemplares. O valor j precisam ser armazenado para que possa ser usado na normalização de novos exemplares. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
43 Normalização de dados Onde max(abs(x)) = 9, 3 max(abs(y)) = 924, 5 j x = 1 j y = 3 Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
44 Normalização de dados Um exemplo com outlier: original, minmax, z-score e escalonamento decimal. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
45 Valores faltantes (missing values), outliers e ruídos Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
46 Valores faltantes, outliers e ruídos Valores faltantes Não raramente, exemplares do conjunto de dados apresentam a atributos sem valores associados. É um problema para o trabalho em mineração de dados, pois os algoritmos se baseiam sua tomada de decisão levando em consideração todos os valores associados a um exemplar. Considere uma revisão sistemática Valores faltantes ocorrem pode diferentes motivos: um estudo pode ser perdido porque não foi possível encontrá-lo em sua versão completa (falta); um estudo pode ser perdido porque as informações presentes nele não são relevantes para a revisão (irrelevância); um estudo pode ser perdido porque o responsável por analisá-lo não entendeu o conteúdo do arquivo, ou não apresentou o resultado da análise (perda); um estudo pode ser perdido porque o conteúdo dele não está relacionado ao assunto da revisão (inaplicável); Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
47 Valores faltantes (missing values), outliers e ruídos Consider o conjunto de dados referente a registros de um hospital: Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
48 Valores faltantes (missing values), outliers e ruídos É interessante analisar porque os valores estão faltando. Há diferentes cenários: missing at random: se o motivo pelo qual eles se perderam não está relacionado aos próprios valores faltantes. Imagine que alguns questionários sobre satisfação dos clientes, respondidos por entrevistados foram extraviados nos Correios. A perda não está relacionada com a satisfação dos clientes (esperamos que não ). Esses casos tendem a não ser importantes, e as análises dos dados sofrerão por se ter uma amostra menor para estudo. not missing at random: se o motivo pelo qual eles se perderam está relacionado aos próprios valores dos dados. Se um teste de medicamento está sendo feito com pacientes que possuem depressão, alguns participantes podem ser mais suscetíveis a não seguir as regras do experimento, e por isso faltar em uma entrevista, não fazer uma medição, ou tomar a medicação de forma inadequada. Esses problemas não podem ser ignorados pois podem levar a análises tendenciosas. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
49 Valores faltantes (missing values), outliers e ruídos Como lidar com os valores faltantes analisar somente os dados disponíveis (isso pode implicar em excluir exemplares ou atributos); imputar os valores faltantes usando estratégias estatísticas (média, mediana, moda, regressão...) imputar os valores faltantes e levar em consideração a incerteza relacionada (fazer múltiplas imputações, usar média considerando desvio padrão, considerar a tendência da distribuição) usar estratégias estatísticas considerando asserções sobre o relacionamento com os exemplares disponíveis Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
50 Valores faltantes (missing values), outliers e ruídos Outliers... Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
51 Valores faltantes (missing values), outliers e ruídos Ruído Exemplares imperfeitos que podem ser derivados do processo de aquisição, transformação ou rotulação, por exemplo. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
52 Valores faltantes (missing values), outliers e ruídos Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
53 Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53
Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira
Universidade do Sul de Santa Catarina Ciência da Computação Técnicasde InteligênciaArtificial Aula 09 Introdução a Análise de Textos Prof. Max Pereira Processamento de Linguagem Natural Conjunto de técnicas
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos
Leia maisOrganizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU
Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Pré-processamento de documentos Organização e Recuperação de Informação(GSI521) Introdução O pré-processamento de
Leia maisProfª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni
Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Motivação e Objetivos Etapas do Desenvolvimento de um Sistema de Recuperação de Informações (SRI): Pré-processamento; Representação; Extração
Leia maisDATA MINING & MACHINE LEARNING (I) Thiago Marzagão
DATA MINING & MACHINE LEARNING (I) Thiago Marzagão transformando textos em dados Documento 1: Não trabalho para ter clientes; tenho clientes para poder trabalhar. Documento 2: Não se pode forçar a inteligência
Leia maisRecuperação de Informação
Recuperação de Informação Avaliação de Desempenho de Sistemas de Recuperação de Informação Renato Fernandes Corrêa 1 Para que avaliar? Existem muitos modelos de RI, mas qual é o melhor? Qual a melhor escolha
Leia maisAprendizado de Supervisionado
Aprendizado de Supervisionado Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Padronizando e Normalizando os Atributos 2. Tipos de Atributos 3. Representação Textual 1 Padronizando e
Leia mais2 Processo de Agrupamentos
20 2 Processo de Agrupamentos A análise de agrupamentos pode ser definida como o processo de determinação de k grupos em um conjunto de dados. Para entender o que isso significa, observe-se a Figura. Y
Leia maisEstatística Descritiva
C E N T R O D E M A T E M Á T I C A, C O M P U T A Ç Ã O E C O G N I Ç Ã O UFABC Estatística Descritiva Centro de Matemática, Computação e Cognição March 17, 2013 Slide 1/52 1 Definições Básicas Estatística
Leia maisMineração de Textos. Mineração de Textos
Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semi-estruturados
Leia maisPré-Processamento de Documentos
Pré-Processamento de Documentos Introdução Pré-Processamento : Análise léxica; Stopwords; Stemming; Vocabulário; Thesaurus Compressão: Fundamentos; Método Estatístico; Método Dicionário; Arquivos Invertidos
Leia maisMINERAÇÃO DE DADOS. Thiago Marzagão MINERAÇÃO DE TEXTOS. marzagao.1@osu.edu. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/2016 1 / 25
MINERAÇÃO DE DADOS Thiago Marzagão marzagao.1@osu.edu MINERAÇÃO DE TEXTOS Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/2016 1 / 25 transformando textos em dados Documento 1: "Não trabalho para ter clientes;
Leia maisAula 7 Medidas de Distância. Profa. Elaine Faria UFU
Aula 7 Medidas de Distância Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof Andre C. P. L. F. Carvalho Agradecimentos Ao professor André
Leia maisPrograma do Curso. Transformação de Dados. Sistemas Inteligentes Aplicados. Carlos Hall. Discretização de Variáveis Contínuas
Sistemas Inteligentes Aplicados Carlos Hall Programa do Curso Limpeza/Integração de Dados Transformação de Dados Discretização de Variáveis Contínuas Transformação de Variáveis Discretas em Contínuas Transformação
Leia maisConsiderações de Desempenho
Back Propagation Considerações de Desempenho Dicas para o BP O uso da função de ativação simétrica geralmente acelera o treinamento TANH +1 logistic linear 0 tanh -1-4 +4 1 Dicas para o BP Os pesos devem
Leia maisBack Propagation. Dicas para o BP
Back Propagation Considerações de Desempenho Dicas para o BP O uso da função de ativação simétrica geralmente acelera o treinamento TANH +1 logistic linear 0 tanh -1-4 +4 11 Dicas para o BP Os pesos devem
Leia maisDeterminação de vícios refrativos oculares utilizando Support Vector Machines
Determinação de vícios refrativos oculares utilizando Support Vector Machines Giampaolo Luiz Libralão, André Ponce de Leon F. de Carvalho, Antonio Valerio Netto, Maria Cristina Ferreira de Oliveira Instituto
Leia maisSUPPORT VECTOR MACHINE - SVM
SUPPORT VECTOR MACHINE - SVM Definição 2 Máquinas de Vetores Suporte (Support Vector Machines - SVMs) Proposto em 79 por Vladimir Vapnik Um dos mais importantes acontecimentos na área de reconhecimento
Leia mais4 Recuperação de Informação
4 Recuperação de Informação No presente capítulo são apresentados os fundamentos da área de Recuperação de Informação utilizados em Mineração de Textos, como por exemplo, os modelos de representação de
Leia maisGSI024 - Organização e Recuperação da
GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI Arquivo 5 - Peso de termos GSI024-ORI Pg:5. 1 Busca paramétrica usando atributos Regiões em documentos
Leia maisMineração de Dados em Biologia Molecular
Mineração de Dados em Biologia Molecular Principais tópicos André C. P. L. F. de Carvalho Monitor: Valéria Carvalho Métodos baseados em distância Aprendizado baseado em instâncias Conceitos básicos KNN
Leia maisIndexação e Construção de Índice. Renato Fernandes Corrêa
Indexação e Construção de Índice Renato Fernandes Corrêa Indexação de documentos Consiste de três passos: 1. Definição do vocabulário de indexação 2. Indexação - atribuição de termos de indexação a cada
Leia maisAprendizado de Supervisionado
Aprendizado de Supervisionado Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Aprendendo com Exemplos 2. Classificação 3. Conceitos Gerais 4. Vizinho Mais Próximo 1 Aprendendo com Exemplos
Leia maisModelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:
Back Propagation Fatores importantes para a modelagem da Rede Neural: Seleção de variáveis; veis; Limpeza dos dados; Representação das variáveis veis de entrada e saída; Normalização; Buscando melhor Generalização
Leia maisTrabalho 2 - Detalhamento
Trabalho 2 - Detalhamento Clodoaldo A. M. Lima, Sarajane M. Peres 7 de outubro de 2015 Programa de Pós-Graduação em Sistemas de Informação Mestrado acadêmico - EACH - USP http://ppgsi.each.usp.br Clodoaldo
Leia maisFísica Geral - Laboratório. Aula 3: Estimativas e erros em medidas diretas (I)
Física Geral - Laboratório Aula 3: Estimativas e erros em medidas diretas (I) 1 Experimentos: medidas diretas Experimento de medidas diretas de uma grandeza: Aquisição de um conjunto de dados através de
Leia maisDescoberta de conhecimento em redes sociais e bases de dados públicas
Descoberta de conhecimento em redes sociais e bases de dados públicas Trabalho de Formatura Supervisionado Bacharelado em Ciência da Computação - IME USP Aluna: Fernanda de Camargo Magano Orientadora:
Leia maisFísica Geral (2013/1) Aula 3: Estimativas e erros em medidas diretas (I)
Física Geral (2013/1) Aula 3: Estimativas e erros em medidas diretas (I) 1 Experimentos: medidas diretas Experimento de medidas diretas de uma grandeza: Aquisição de um conjunto de dados através de medições
Leia maisLista de exercícios 2 Recuperação de Informação Textual
Lista de exercícios 2 Recuperação de Informação Textual 2 de dezembro de 2015 0.1 O que é o modelo bag-of-words? Porque ele é uma simplificação? Dê um exemplo em que ele estaria incorreto. 0.2 O que é
Leia maisRealimentação de Relevância
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Ciclo de realimentação onde uma consulta q recebida do usuário é transformada em uma consulta modificada
Leia maisConsultas por Similaridade em Domínios de Dados Complexos
Consultas por Similaridade em Domínios de Dados Complexos Guilherme Felipe Zabot Orientador: Profº Dr Caetano Traina Jr Roteiro Objetivo Introdução Dados Complexos Representação de Dados Complexos Extração
Leia maisTópicos em Mineração de Dados
Tópicos em Mineração de Dados Descoberta de agrupamentos Método k-médias 1. Introdução A descoberta de agrupamentos é uma tarefa descritiva que procura agrupar dados utilizando a similaridade dos valores
Leia maisIndexação automática. CBD/ECA Indexação: teoria e prática
Indexação automática CBD/ECA Indexação: teoria e prática Indexação documentária Identificar pela análise dos documentos, os seus assuntos extrair os conceitos que indicam o seu conteúdo traduzir os conceitos
Leia maisSCC0173 Mineração de Dados Biológicos
SCC0173 Mineração de Dados Biológicos Preparação de Dados: Parte A Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões: dos originais gentilmente
Leia maisFísica Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação
Física Geral - Laboratório Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação 1 Física Geral - Objetivos Ao final do período, o aluno deverá ser capaz de compreender as principais
Leia maisMelhorando a Recuperação de Informação
Recuperação de Informação e Web Mining 1 Melhorando a Recuperação de Informação O modelo de espaço vetorial Utiliza pesos para termos Permite o ranqueamento dos resultados Pode reduzir a dimensão do espaço
Leia maisEstatística Descritiva e Exploratória
Gledson Luiz Picharski e Wanderson Rodrigo Rocha 9 de Maio de 2008 Estatística Descritiva e exploratória 1 Váriaveis Aleatórias Discretas 2 Variáveis bidimensionais 3 Váriaveis Aleatórias Continuas Introdução
Leia maisFísica Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação
Física Geral - Laboratório Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação 1 Física Geral - Objetivos Ao final do período, o aluno deverá ser capaz de compreender as principais
Leia maisPedro Oliveira
Pedro Oliveira pcoliv@student.dei.uc.pt O que é a radicalização Aplicações Radicalização em Inglês Radicalização em Português Experiência com algoritmos para o Português Vantagens e Desvantagens 2 Processo
Leia maisRoteiro. PCC142 / BCC444 - Mineração de Dados. Por que pré-processar os dados? Introdução. Limpeza de Dados
Roteiro PCC142 / BCC444 - Mineração de Dados Introdução Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br www.decom.ufop.br/luiz
Leia maisIdentifique um número! MINERAÇÃO DE DADOS E TEXTOS MOTIVAÇÃO. Observe a imagem... SCC-230 Inteligência Artificial
MINERAÇÃO DE DADOS E TEXTOS SCC-230 Inteligência Artificial Solange Oliveira Rezende Bruno Magalhães Nogueira Thiago A. S. Pardo MOTIVAÇÃO Observe a imagem... Identifique um número! 2 1 MOTIVAÇÃO 3 MOTIVAÇÃO
Leia maisFísica Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação
Física Geral - Laboratório Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação 1 Física Geral - Objetivos Ao final do período, o aluno deverá ser capaz de compreender as principais
Leia mais3 Recuperação de Informações Textuais
3 Recuperação de Informações Textuais Tudo deveria se tornar o mais simples possível, mas não simplificado. Albert Einstein Sistemas tradicionais de indexação costumam utilizar-se de termos-índice, que
Leia maisVisualização de Texto e Documento
Visualização de Texto e Documento SCC5836 Visualização Computacional Prof. Fernando V. Paulovich http://www.icmc.usp.br/~paulovic paulovic@icmc.usp.br Instituto de Ciências Matemáticas e de Computação
Leia maisAmbiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade
Universidade de São Paulo - USP Instituto de Ciências Matemáticas e de Computação - ICMC Programa de Pós-Graduação em Ciências da Computação e Matemática Computacional Ambiente de Data Warehouse Para Imagens
Leia maisAnálise de Regressão Linear Simples e
Análise de Regressão Linear Simples e Múltipla Carla Henriques Departamento de Matemática Escola Superior de Tecnologia de Viseu Introdução A análise de regressão estuda o relacionamento entre uma variável
Leia maisAula 03: Dados Profa. Ms. Rosângela da Silva Nunes
Aula 03: Dados Profa. Ms. Rosângela da Silva Nunes 1 de 29 Tipos de Conjuntos de dados Registro Tabela do BD Matriz de dados Document 1 Document 2 team coach pla y ball score game wi n lost timeout 3 0
Leia maisSCC0173 Mineração de Dados Biológicos
SCC073 Mineração de Dados Biológicos Análise Exploratória de Dados Parte A: Revisão de Estatística Descritiva Elementar Prof. Ricardo J. G. B. Campello SCC / ICMC / USP Tópicos Análise Exploratória de
Leia mais6 Atributos. A dívida da empresa subiu.
6 Atributos Para buscar o sentimento de um texto automaticamente precisamos encontrar boas pistas ao longo do discurso. Uma grande variedade de palavras e expressões possui conotação positiva ou negativa,
Leia maisDATA MINING & MACHINE LEARNING (I) Thiago Marzagão
DATA MINING & MACHINE LEARNING (I) Thiago Marzagão problema de trabalhar c/ textos: dimensionalidade A quantidade de colunas cresce rapidamente com a quantidade de documentos problema de trabalhar c/ textos:
Leia maisLaboratório Física Geral
Laboratório Física Geral 1 Lab Física Geral Professora Helena Malbouisson Sala 3018A. email da turma: labfisicageraluerj@gmail.com 2 Objetivos do curso Organizar e descrever conjuntos de dados (histogramas);
Leia mais8 JÚLIO CESAR R. PEREIRA
SUMÁRIO Lista de Tabelas... 09 Lista de Figuras... 11 Agradecimentos... 15 Apresentação... 17 Prefácio... 19 1. O Dado Qualitativo... 21 O Dado e o Evento... 21 A Análise de Dados Qualitativos e a Pesquisa
Leia maisAlgoritmos e Estruturas de Dados II. Trabalho Prático 4
Algoritmos e Estruturas de Dados II Trabalho Prático 4 Entrega: 23/11/09 Devolução: 10/12/09 (sem possibilidade de entrega com atraso) Trabalho em dupla Prof. Jussara Marques de Almeida Problema 1: Construção
Leia maisIntrodução às Redes Neurais Artificiais
Introdução às Redes Neurais Artificiais Clusterização: Conceitos Básicos Prof. João Marcos Meirelles da Silva www.professores.uff.br/jmarcos Departamento de Engenharia de Telecomunicações Escola de Engenharia
Leia maisPonderação de termos
Ponderação de termos Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Parte da ideia de que, dentro
Leia maisOperações Pontuais. 1 operando. 2 operandos. Processamento e Análise de Imagem - A. J. Padilha - v ac
Operações Pontuais 1 operando T OP 2 operandos Pré-Processamento - 1 Operações Pontuais Nas operações pontuais, cada ponto da imagem-resultado - g(i,j) - é obtido por uma transformação T do ponto de coordenadas
Leia maisTerm weighting: outras ideias
Term weighting: outras ideias Term Weighting i Diversas são as abordagens. Vamos discutir algumas ideias mais simples, porém conhecidas. i Abordagens 4 Pesos binários (já vimos) 4 Frequência (já vimos)
Leia maisExtração de Conhecimento & Mineração de Dados
Extração de Conhecimento & Mineração de Dados Nesta apresentação é dada uma breve introdução à Extração de Conhecimento e Mineração de Dados José Augusto Baranauskas Departamento de Física e Matemática
Leia maisDeterminação do Grau de Similaridade entre Frases
Determinação do Grau de Similaridade entre Frases UC 21095 Projeto Final Licenciatura em Informática Estudante nº 1100194: Helena Sofia Felisberto Coelho Orientadora: Prof.ª Gracinda Carvalho Lisboa, setembro
Leia maisMineração de Dados. Dados Escalar Cardinalidade Porque pré-processar dados?
Mineração de Dados Pré-Processamento de Dados 1 Sumário Dados Escalar Cardinalidade Porque pré-processar dados? Limpeza de Dados Integração e Transformação Redução de Dados Discretização 2 1 Dados Medidas
Leia maisUniversidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Extração de Características
Universidade Federal do Paraná Departamento de Informática Reconhecimento de Padrões Extração de Características Luiz Eduardo S. Oliveira, Ph.D. http://lesoliveira.net Objetivos Entender os conceitos de
Leia maisAGA Análise de Dados em Astronomia I. 1. Introdução
1 / 22 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 1. Introdução Laerte Sodré Jr. 1o. semestre, 2019 2 / 22 introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que
Leia maisSCC0173 Mineração de Dados Biológicos
SCC0173 Mineração de Dados Biológicos Preparação de Dados: Parte B Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões: dos originais gentilmente
Leia maisProfessor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta
Professor: Eduardo R Hruschka Estagiário PAE: Luiz F S Coletta (luizfsc@icmcuspbr) Sumário Definição do projeto 1 Desenvolvimento de algoritmo de Aprendizado de Máquina (AM); 2 Pré-processamento dos dados;
Leia maisImplementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes
Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Luciana Kayo e Paulo Mei Prof. Dr. Marco Dimas Gubitoso Introdução Inspiração na competição When Bag of Words
Leia maisTÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE
TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto O processo de descoberta do conhecimento - KDD Roteiro Introdução Definição Etapas Desafios
Leia maisFísica Geral - Laboratório. Organização e descrição de dados
Física Geral - Laboratório Organização e descrição de dados 1 Física Geral - Laboratório A nota de laboratório de Física Geral será composta dos resultados das provas e atividades de laboratório: Média
Leia maisUniversidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Tipos de Aprendizagem. Luiz Eduardo S. Oliveira, Ph.D.
Universidade Federal do Paraná Departamento de Informática Reconhecimento de Padrões Tipos de Aprendizagem Luiz Eduardo S. Oliveira, Ph.D. http://lesoliveira.net Objetivos Introduzir diferentes tipos de
Leia mais2 Reconhecimento Facial
2 Reconhecimento Facial Em termos gerais, o reconhecimento facial é o processo pelo qual se mede o grau de similaridade entre duas imagens faciais com o proposito de identificar a um indivíduo ou de verificar
Leia maisANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA
CURTA DURAÇÃO ANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA CARGA HORÁRIA: 80 horas COORDENAÇÃO: Prof.ª Dr.ª Alessandra de Ávila Montini OBJETIVOS Introduzir o conceito de Big Data,
Leia maisAprendizado de Máquinas. Introdução à Aprendizado Não- Supervisionado
Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Aprendizado de Máquinas Introdução à Aprendizado Não- Supervisionado David Menotti, Ph.D. http://web.inf.ufpr.br/menotti Objetivos
Leia maisDistribuições Contínuas de Probabilidade
Distribuições Contínuas de Probabilidade Uma variável aleatória contínua é uma função definida sobre o espaço amostral, que associa valores em um intervalo de números reais. Exemplos: Espessura de um item
Leia maisNoções de Exatidão, Precisão e Resolução
Noções de Exatidão, Precisão e Resolução Exatidão: está relacionada com o desvio do valor medido em relação ao valor padrão ou valor exato. Ex : padrão = 1,000 Ω ; medida (a) = 1,010 Ω ; medida (b)= 1,100
Leia maisFerramentas para Recuperação e Mineração de Informações
Ferramentas Java para Recuperação e Mineração de Informações Fabrício J. Barth 1,2 1 Fundação Atech Tecnologias Críticas (fbarth@atech.br) 2 Centro Universitário SENAC (fabricio.jbarth@sp.senac.br) 9 de
Leia maisPROCESSAMENTO DIGITAL DE IMAGENS (SERP11) TRANSFORMAÇÕES LINEARES: COMPONENTES PRINCIPAIS, TASSELED CAP, IHS. Daniel C. Zanotta
PROCESSAMENTO DIGITAL DE IMAGENS (SERP11) TRANSFORMAÇÕES LINEARES: COMPONENTES PRINCIPAIS, TASSELED CAP, IHS Daniel C. Zanotta ANÁLISE POR PRINCIPAIS COMPONENTES Conceitos básicos Espalhamento bi-dimensional:
Leia maisAULA 02 Distribuição de Probabilidade Normal
1 AULA 02 Distribuição de Probabilidade Normal Ernesto F. L. Amaral 20 de agosto de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario
Leia maisMotivação. VA n-dimensional. Distribuições Multivariadas VADB
Motivação Em muitas situações precisamos lidar com duas ou mais variáveis aleatórias ao mesmo tempo. Por exemplo o comprimento e a largura de uma Prof. Lorí Viali, Dr. viali@mat.ufgrs.br http://www.mat.ufrgsbr/~viali/
Leia maisThiago Marzagão LSA, LDA
MINERAÇÃO DE DADOS Thiago Marzagão marzagao.1@osu.edu LSA, LDA Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1 / 16 problema de trabalhar c/ textos: dimensionalidade A quantidade de colunas cresce rapidamente
Leia maisProcessamento de Malhas Poligonais
Processamento de Malhas Poligonais Tópicos Avançados em Computação Visual e Interfaces I Prof.: Marcos Lage www.ic.uff.br/~mlage mlage@ic.uff.br Conteúdo: Notas de Aula Curvas 06/09/2015 Processamento
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 01 Motivação, áreas de aplicação e fundamentos Max Pereira Nem todo conhecimento tem o mesmo valor. O que torna determinado conhecimento mais importante que
Leia maisMÉTODOS QUANTITATIVOS PARA CIÊNCIA DA COMPUTAÇÃO EXPERIMENTAL
MÉTODOS QUANTITATIVOS PARA CIÊNCIA DA COMPUTAÇÃO EXPERIMENTAL Pedro Henrique Bragioni Las Casas Pedro.lascasas@dcc.ufmg.br Apresentação baseada nos slides originais de Jussara Almeida e Virgílio Almeida
Leia maisEstatísticas Descritivas. Estatística
Estatística Estatísticas descritivas: usadas para mostrar/descrever algumas informações da amostra, ou seja, servem para fazer um resumo ou descrição dos dados. Não consideram a origem dos dados. Exemplos:
Leia maisSERVIÇO SOCIAL DA INDÚSTRIA SESI-SP PROCESSO SELETIVO 004/2017 ANEXO II CONTEÚDO PROGRAMÁTICO
SERVIÇO SOCIAL DA INDÚSTRIA SESI-SP PROCESSO SELETIVO 004/2017 ENFERMEIRO DO TRABALHO ENGENHEIRO DE SEGURANÇA DO TRABALHO GUARDA-VIDAS ANEXO II CONTEÚDO PROGRAMÁTICO ENFERMEIRO DO TRABALHO 1. Compreensão
Leia maisComputação Gráfica. Engenharia de Computação. CEFET/RJ campus Petrópolis. Prof. Luis Retondaro. Aula 3. Transformações Geométricas
Computação Gráfica Engenharia de Computação CEFET/RJ campus Petrópolis Prof. Luis Retondaro Aula 3 Transformações Geométricas no plano e no espaço Introdução (Geometria) 2 Pontos, Vetores e Matrizes Dado
Leia maisAnálise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda
Leia maisRedes Neurais e Sistemas Fuzzy
Redes Neurais e Sistemas Fuzzy O ADALINE e o algoritmo LMS O ADALINE No contexto de classificação, o ADALINE [B. Widrow 1960] pode ser visto como um perceptron com algoritmo de treinamento baseado em minimização
Leia maisRECONHECIMENTO DE PADRÕES - RP
RECONHECIMENTO DE PADRÕES - RP Definições Básicas O que é? 2 Ramo do aprendizado de máquina Consiste em atribuir um rótulo (ou classe) para uma certa amostra ou valor de entrada Exemplo: classificação
Leia maisFísica Geral - Laboratório. Organização e descrição de dados
Física Geral - Laboratório Organização e descrição de dados 1 Física Geral - Laboratório A nota de laboratório de Física Geral será composta dos resultados das provas e atividades de laboratório: Média
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 13 Algoritmo k-means Clusterização Max Pereira Algoritmo k-means 1. Para um determinado cluster de dados C precisamos calcular sua média m k : m k i i: C(
Leia maisTipo Likert X Escala Likert
Tipo Likert X Escala Likert Tipo Likert X Escala Likert Ricardo Ramos de Oliveira Universidade de São Pulo (ICMC-USP) E-mail: ricardoramos.usp@gmail.com Likert Qual a forma correta de analisar dados Likert?
Leia maisCaracterísticas Básicas
Características Básicas Software de simulação matemática; Realiza operações matriciais,constrói gráficos em 2D e 3D,ajuda no processamento de sinais; Facilidade na linguagem em um ambiente interativo;
Leia maisTeoria das Filas aplicadas a Sistemas Computacionais. Aula 08
Teoria das Filas aplicadas a Sistemas Computacionais Aula 08 Universidade Federal do Espírito Santo - Departamento de Informática - DI Laboratório de Pesquisas em Redes Multimidia - LPRM Teoria das Filas
Leia maisProf. Lorí Viali, Dr.
Prof. Lorí Viali, Dr. viali@mat.ufgrs.br http://www.mat.ufrgsbr/~viali/ Motivação Em muitas situações precisamos lidar com duas ou mais variáveis aleatórias ao mesmo tempo. Por exemplo o comprimento e
Leia maisAULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012
1 AULA 09 Regressão Ernesto F. L. Amaral 17 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução à
Leia maisGSI024 - Organização e Recuperação da
GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI Arquivo 6 - Modelo Vetorial GSI024-ORI Pg:6. 1 Ranking baseado no modelo vetorial Considerações
Leia maisConceito de Estatística
Conceito de Estatística Estatística Técnicas destinadas ao estudo quantitativo de fenômenos coletivos, observáveis. Unidade Estatística um fenômeno individual é uma unidade no conjunto que irá constituir
Leia mais2.3 Operações sobre uma variável aleatória - Esperança matemática
matemática 58 atingir a mosca dado que ele atingiu o alvo. Exercício 2.33. [3] Duas caixas tem bolas vermelhas, verdes e azuis dentro; a quantidade de cada uma é dada a seguir. Caixa 01-5 vermelhas; 35
Leia maisApresentação Prefácio Lista de tabelas e figuras 17
Sumário Apresentação Prefácio Lista de tabelas e figuras 17 Introdução 19 Organização da sexta edição 20 Mudanças específicas na sexta edição 20 Como usar o Manual de Publicação 22 1 Escrevendo para as
Leia maisRecuperação de Informações por Álgebra Linear Computacional
Recuperação de Informações por Álgebra Linear Computacional MAC499 - Projeto de Iniciação Científica Aluna: Ellen Hidemi Fukuda Orientador: Paulo José da Silva e Silva Departamento de Ciência da Computação
Leia mais