Aprendizado de Máquina para o Processamento de Língua Natural. Carolina Evaristo Scarton Lianet Sepúlveda Torres
|
|
- Madalena Deluca Custódio
- 8 Há anos
- Visualizações:
Transcrição
1 Aprendizado de Máquina para o Processamento de Língua Natural Arnaldo Candido Junior Arnaldo Candido Junior Carolina Evaristo Scarton Lianet Sepúlveda Torres
2 Roteiro Parte 1: conceitos e exemplos Parte 2: processando traços Parte 3: geração e avaliação de classificadores Parte 4: mão na massa usando o Weka
3 Roteiro da parte 1: conceitos O que é aprendizado de máquina Tipos de aprendizado de máquina Interpretação gráfica Lidando com erros Exemplos de traços
4 Introdução Desde quando os computadores foram inicialmente pensados, pergunta-se se eles seriam capaz de aprender Seu poder de automatizar diversas tarefas aumentaria Apoiariam os humanos a entender tarefas que ainda não foram bem compreendidas Conceitos Aprendizado de máquina
5 O que é aprendizado de máquina? Um programa aprende uma tarefa se seu desempenho avaliado por uma dada métrica aumenta com a experiência, ou seja, se toma decisões melhores baseadas na solução dos problemas anteriores (Mitchell, 1997) Conceitos Aprendizado de máquina
6 Usos de aprendizado de máquina Dirigir automóveis e veículos não tripulados Diagnosticar pacientes com base em seus sintomas Detectar fraudes no uso de cartão de crédito Identificar estruturas de proteínas PLN (nosso foco) E muitos outros Conceitos Aprendizado de máquina
7 Tipos de aprendizado de máquina Dedução: esses grãos são daquele saco e todos os grãos daquele saco são brancos Logo, esses grãos são brancos Indução: Esses grãos são brancos e são daquele saco Logo, todos os grãos daquele saco são brancos Abdução: Esses grãos são brancos e todos os grãos daquele saco são brancos. Logo: esses grãos são daquele saco Conceitos Aprendizado de máquina
8 Aprendizado de máquina indutivo Aprendizado Indutivo Aprendizado Supervisionado Aprendizado não supervisionado Aprendizado por reforço Classificação* Regressão (*) foco deste tutorial Conceitos Aprendizado de máquina indutivo
9 Tipos de aprendizado indutivo Aprender é: generalizar Supervisionado: um professor guia o aprendizado (ex.: detectar spam em s) Não supervisionado: não há interferência humana (ex.: recomendar livros que um leitor poderia gostar com base nos livros que comprou) Por reforço: um crítico diz se o resultado ficou bom ou não, mas não diz como melhorá-lo (ex. jogo de gamão) Conceitos Aprendizado de máquina indutivo
10 Aprendizado Supervisionado: a classificação Exemplo: dizer se um atleta olímpico é halterofilista ou jogador de basquete olhando apenas sua altura e peso A máquina deve aprender a predizer um conjunto de classes a partir de uma série de traços (também chamados de atributos) Vamos separar o período de aquisição de experiência (treinamento) do uso do conhecimento apreendido (classificação) Conceitos Aprendizado de máquina indutivo
11 Quando usar aprendizado de máquina Em situações em que o erro é aceitável Subestimando o aprendizado de máquina: Deixamos de lado uma ferramenta potencialmente útil para nossa pesquisa Superestimando o aprendizado de máquina: Criaremos sistemas com desempenho muito abaixo do desejado Conceitos Aprendizado de máquina indutivo
12 Exemplo: esporte de atletas olímpicos Dados reais de atletas de Basquete e Levantamento de peso das seleções masculinas que disputaram as Olimpíadas de Londres em Peso Altura Basquete Levantamento de peso Conceitos Interpretação gráfica da classificação
13 Traços 2 traços Peso Altura Basquete Levantamento de peso Conceitos Interpretação gráfica da classificação
14 Instâncias Peso Uma instância: (1.74m de altura, 102kg de peso) 1. É a lista que contem os valores dos traços de de um atleta 2. É representada como um ponto no gráfico Altura Basquete Levantamento de peso Conceitos Interpretação gráfica da classificação
15 Classes Classes: conjunto de atletas do mesmo exporte 2 classes são mostradas Peso Altura Basquete Levantamento de peso Conceitos Interpretação gráfica da classificação
16 Uma possível generalização Essa reta é o que faz a generalização funcionar 180 Peso lado do levantamento lado do basquete Altura Basquete Levantamento de peso Conceitos Interpretação gráfica da classificação
17 Novas instâncias Peso Esta nova instância será classificada na classe levantamento de peso lado do levantamento lado do basquete Altura Basquete Levantamento de peso Conceitos Interpretação gráfica da classificação
18 Outra possível generalização Já esta, será classificada na classe basquete Peso lado do levantamento lado do basquete Altura Basquete Levantamento de peso Conceitos Interpretação gráfica da classificação
19 Erros Classificações incorretas 180 Peso lado do levantamento lado do basquete Altura Basquete Levantamento de peso Conceitos Interpretação gráfica da classificação
20 Exemplo: região de maior incerteza Região de incerteza 180 Peso lado do levantamento lado do basquete Altura Basquete Levantamento de peso Conceitos Interpretação gráfica da classificação
21 Análise de erros para levantamento de peso verdadeiro positivo verdadeiro negativo Peso falso positivo Altura falso negativo Para a classe basquete, a análise deve ser espelhada Basquete Levantamento de peso Conceitos Interpretação gráfica da classificação
22 Uma segunda generalização possível Peso Altura Basquete Levantamento de peso Conceitos Interpretação gráfica da classificação
23 Uma terceira generalização possível Peso Lado de fora: levantamento Lado de dentro: basquete Altura Basquete Levantamento de peso Conceitos Interpretação gráfica da classificação
24 Exemplo: possível generalização para 3 classes Peso Altura Basquete Esporte hipotético Levantamento de peso Conceitos Interpretação gráfica da classificação
25 Interpretação gráfica no Aprendizado Indutivo Para que serve a interpretação gráfica? Ter uma ideia de como os algoritmos trabalham por dentro, suas capacidades e suas limitações Ter pistas de como decidir melhor os traços É necessário conhecê-la? Não, podemos usar o aprendizado de máquina bem mesmo mesmo sem saber o que os algoritmos estão fazendo por trás Conceitos Interpretação gráfica da classificação
26 Interpretação gráfica no Aprendizado Indutivo Como fica a interpretação para três traços? Ao invés de um gráfico plano, temos um gráfico tridimensional. E para quatro ou mais traços? Não podemos visualizar, mas importante é que a máquina pode Ela manipula as dimensões superiores por meio de equações matemáticas Conceitos Interpretação gráfica da classificação
27 Como o aprendizado indutivo opera? mundo real mundo do aprendizado indutivo entidades complexas (pessoas, textos, etc) Simples instâncias (listas de traços) problemas complexos (classificar, agrupar, induzir, etc) problema de separar pontos no espaço Conceitos Interpretação gráfica da classificação
28 Pontos Chaves da Interpretação Gráfica Problema a ser resolvido: separar pontos no gráfico (versão muito simplificada de problemas do mundo real) Bons traços agrupam melhor os pontos da mesma classe Algoritmos fazem separações de forma diferente (o melhor varia de acordo com problema a ser resolvido) Conceitos Interpretação gráfica da classificação
29 Erros no aprendizado de máquina Suscetível a erros por natureza: Novos dados podem ser muito diferentes dos dados de treinamento Dois atletas de esportes diferentes podem ter mesmo peso e altura! Problemas bem comportados (100% de acerto) já foram resolvidos de outras formas Usa-se quando erros são toleráveis (ex: tradução de máquina pode vir com muitos erros) Conceitos Erros
30 Minimizando erros Bons traços: fundamental para obter-se boas generalizações Bons algoritmos: adequados ao domínio em questão Bons parâmetros (se aplicável): determinados algoritmos funcionam melhor quando calibrados Boas generalizações (tarefa do algoritmo): ele tentara escolher estatisticamente uma entre várias possíveis generalizações Conceitos Erros
31 Exemplo: jogar tênis traços Dia Tempo Temperatura Umidade Vento Jogar tênis? 1 Sol Quente Alta Fraco Não 2 Sol Quente Alta Forte Não 3 Nublado Quente Alta Fraco Sim 4 Chuva Média Alta Fraco Sim 5 Chuva Frio Normal Fraco Sim 6 Chuva Frio Normal Forte Não 7 Nublado Frio Normal Forte Sim 8 Sol Mediana Alta Fraco Não 9 Sol Frio Normal Fraco Sim 10 Chuva Média Normal Fraco Sim 11 Sol Média Normal Forte Sim classes instância Conceitos Exemplos gerais
32 Outro exemplo: diagnóstico traços classes Febre Enjoo Manchas Dor Diagnóstico sim sim pequenas sim doente não não grandes não saudável sim sim pequenas não saudável sim não grandes sim doente sim não pequenas sim saudável não não grandes sim doente Conceitos Exemplos gerais
33 Traços influenciam os possíveis agrupamentos (2) Conceitos Exemplos gerais
34 Traços influenciam os possíveis agrupamentos (3) Idade Gênero Dirige? Conceitos Exemplos gerais
35 Traços influenciam os possíveis agrupamentos (4) Vota? Atividade remunerada? Conceitos Exemplos gerais
36 Instâncias no PLN As instâncias variam de acordo com a tarefa, comumente são extraídas: Fragmentos de áudio (ex. reconhecimento de fala) Orações (ex.: mineração de sentimentos) Textos (ex.: identificar domínio, autor, gênero, etc) Pares de orações (reconhecimento de paráfrases) ou de textos (alinhamento automático) Nesse caso um par vira uma única instância Entre outros Conceitos Exemplos PLN
37 Traços por nível linguístico Baseados nas contagens de palavras Traço: similaridade entre um par de orações Mais 80% de palavras em comum indicativo de paráfrases Baseados nas palavras individuais Traço: presença da palavra péssimo em uma oração É um indicativo do sentimento negativo do autor Conceitos Exemplos PLN
38 Traços por nível linguístico (2) Baseados em sintaxe Traço: orações na voz passiva em um texto Mais de 20% indicativo de que o texto é complexo (ex.: para portadores de afasia) Baseados em semântica Traço: o sujeito da uma oração é um hiperônimo de sua oração predecessora? Indicativo que encontramos um fragmento de cadeia de correferência Conceitos Exemplos PLN
39 Traços por nível linguístico (3) Estado da arte Traços léxicos predominam Traços sintáticos, semânticos e retóricos começarem a se popularizar Não sempre a extração pode ser automatizada (principalmente para o Português) Extração manual é cara Sem extração automática, cenários de uso são mais restritos Conceitos Exemplos PLN
40 Traços por nível linguístico (4) Linguísticas conhecem a língua profundamente, mas possuem pouca experiência propondo traços Computeiros possuem boa experiência com traços, mas não conhecem a língua profundamente Pesquisadores podem melhorar sua capacidade de propor traços com a experiência e acompanhando as pesquisas relacionadas à sua pesquisa Conceitos Exemplos PLN
41 Bag of words Problema: classificar textos entre os gêneros esportivo, biografia e religioso nasceu jogador espírito ( ) classes ( )?? ( )?? ( )?? Conceitos Exemplos PLN
42 Bag of words (2) Palavras viram traços O número de traços pode ser elevado A ordem das palavras não é considerada É uma boa ideia remover stopwords (preposições, artigos, entre outras palavras) para facilitar a vida dos algoritmos Seleção de dados Classificação de textos por gênero
43 Bag of words (3) Variações Usando número de palavras (inteiro) ou presença ausência de palavras (booleano) Usando lemas a variação linguística devido a flexões (lematização) Usando radicais para remover diferentes variações linguísticas (stemming) Seleção de dados Classificação de textos por gênero
44 Traços por aplicação de PLN Análise de classes gramaticais (Part of Speech tagging): Um classificador por palavra Traços são palavras a direita e a esquerda (bag of words) Classes são as possíveis classes gramaticais de uma palavra ambígua Conceitos Exemplos PLN
45 Traços por aplicação de PLN Resolução anafórica Instâncias: candidato a correferente (sintagma nominal) + pronome Traços: Distância entre candidato e o pronome Candidato tem artigo ou pronome demonstrativo Candidato tem nome próprio Classes: é correferente; não é correferente Conceitos Exemplos PLN
46 Traços por aplicação de PLN Sumarização (traços): Posição da oração Similaridade da oração com o título Ocorrência de nomes próprios Ocorrência de anáforas Similaridade da bag of words da sentença com a bag of words do texto completo Classes: incluir no sumário; não incluir Conceitos Exemplos PLN
47 Traços por aplicação de PLN Tradução: podemos gerar um classificador para cada palavra com mais de uma tradução Análogo a análise de PoS Traços são palavras que vem antes e depois Classes são as possíveis traduções Desambiguação de sentido Análogo a tradução Conceitos Exemplos PLN
48 Traços por aplicação de PLN Os exemplos são didáticos: traços nem sempre são extraídos diretamente dos textos Podem originar-se outras representações deles (lógica de predicados, ontologias, grafos, medidas matemáticas diversas, etc) O aprendizado de máquina pode corresponder a uma etapa de uma tarefa tarefa de PLN No exemplo da tradução, ele permite escolher as palavras, mas ainda falta ajustar a ordem delas) Conceitos Exemplos PLN
49 Roteiro da parte 2: processando atributos Seleção de dados (instâncias e atributos) Preparando instâncias e atributos para o aprendizado Problemas com instâncias, atributos e valores
50 Seleção de Dados Conhecimento Informação Dados Selecionar os dados é uma das etapas mais importantes do processo O sucesso ou o insucesso depende da qualidade dos dados escolhidos A maioria dos dados disponíveis não foram coletados para serem utilizados em AM Aqui todo o cuidado é pouco! Você pode ser traído pelos seus dados! Seleção de dados Conceitos
51 Seleção de Dados Em PLN, dados (instâncias e atributos) proveem principalmente de copora e recursos linguísticos Atentar para: idade do corpus, gênero, autor, etc. Textos podem estar repetidos ou duplicados Conferir a codificação é importante para evitar problemas (ex: UTF-8, latin-1, etc.) Todas as classes devem estar representadas! Seleção de dados Conceitos
52 Tipos de atributos Escalas Nominal ou categórica Ordinal Intervalar Razão Alguns algoritmos não aceitam alguns tipos de atributos, é necessário convertê-los Conceitos Tipos de traços
53 Escala nominal Exemplos: cidade, profissão, cor favorita, etc Podemos comparar a igualdade: a profissão de Maria é a mesma de João? Não podemos ordenar: Bombeiro vem antes ou depois de professor? Vermelho < amarelo? Conceitos Tipos de traços
54 Escala ordinal Exemplos: notas (A, B, C, D, E), dia da semana, tamanho (pequeno, médio e grande), etc Podemos comparar a igualdade: o tamanho de Pedro é o mesmo de Henrique? Podemos ordenar: a nota de Mateus é maior que a de Antônio? Não podemos somar: A + B? E E? Conceitos Tipos de traços
55 Escala intervalar Exemplos: temperatura (em Celsius), século (XIX, XX, XXI, etc), entre outros Podemos comparar a igualdade e ordenar Podemos somar: 20 graus + 10 graus = 30 graus Não podemos multiplicar: (o zero é relativo) A temperatura de hoje (20 graus) é o dobro da de ontem (10 graus)??? Metade do Século XX é o Século X??? Conceitos Tipos de traços
56 Escala da razão Exemplos: idade, peso, altura (em metros), temperatura (em Kelvins), entre outras Nota: temos aqui uma um ordinal modificado (altura) e um intervalar modificado (temperatura) Podemos comparar a igualdade, ordenar, somar e multiplicar: Aqui o zero é absoluto Conceitos Tipos de traços
57 Exemplo Classificação de textos por gênero Aquivo Número de Número de Palavras/ Type/ Possui Palavras Sentenças Sentenças Token sentenças na voz passiva? Classe Texto1.txt Não Jornal Texto2.txt Sim Literatura Texto3.txt Sim Jornal Texto4.txt Não Jornal Texto5.txt Sim Literatura Texto1.txt Sim Jornal Seleção de dados Classificação de textos por gênero
58 Exemplo Classificação de textos por gênero Nominal Aquivo Número de Número de Palavras/ Type/ Possui Palavras Sentenças Sentenças Token sentenças na voz passiva? Classe Texto1.txt Não Jornal Texto2.txt Sim Literatura Texto3.txt Escala de 0.88 Sim Jornal razão Texto4.txt Não Jornal Texto5.txt Sim Literatura Texto1.txt Sim Jornal Seleção de dados Classificação de textos por gênero
59 Convertendo atributos para números Alguns algoritmos só reconhecem números Outros apenas categorias nominais Como converter ordinais Segunda, terça, quarta, 1, 2, 3, A, B, C, 5, 4, 3,... Conceitos Tipos de traços
60 Convertendo atributos para números (2) Convertendo nominais de 2 valores Votante: não, sim 0 (não), 1 (sim) Convertendo nominais com 3 ou mais valores Esporte: basquete, futebol ou polo joga_basquete (0 ou 1), joga_futebol (0 ou 1), joga_polo (0 ou 1) 3 valores viraram 3 atributos com 2 valores cada (apenas um traço vale 1 em cada instância) Conceitos Tipos de traços
61 Convertendo atributos para nomes Escala intervalar 0-10 graus celsius: muito_frio graus: frio graus: agradável Idem para escala da razão Até 20 palavras: pequeno Até 200 palavras: médio Mais de 200 palavras: grande Conceitos Tipos de traços
62 Lidando com ruídos Erros podem estar presentes nos dados, são chamados de ruídos Origem dos ruídos: Erros inerentes ao processo de anotação manual Erros ocorridos durante a geração automatizada dos recursos induzem ruído Diversos classificadores tem uma tolerância razoável a ruídos, desde que sejam pouco frequentes Seleção de dados Problemas com os dados
63 Lidando com ruídos Dados com ruídos Algumas soluções O tratamento de ruídos em geral depende do contexto Dado classificado como Literatura que seria bem melhor classificado com Jornal podem ser um erro ou pode ser real Em muitos casos não é possível separar os ruídas das instâncias reais Conviver com os ruídos Seleção de dados Problemas com os dados
64 Instâncias duplicadas Aquivo Número de Número de Palavras/ Type/ Possui Palavras Sentenças Sentenças Token sentenças na voz passiva? Classe Texto1.txt Não Jornal Texto2.txt Sim Literatura Texto3.txt Sim Jornal Texto4.txt Não Jornal Texto5.txt Sim Literatura Texto1.txt Sim Jornal Seleção de dados Problemas com os dados
65 Instâncias duplicadas Instâncias Duplicadas Algumas soluções Quais são os atributos corretos para o texto1.txt? No exemplo aparecem unicamente dois conflitos E se fossem centenas, milhares?? Excluir todos os casos Tentar combinar os casos duplicados (poderia pensar na média dos valores) Seleção de dados Problemas com os dados
66 Valores inconsistentes Valores inconsistentes Algumas soluções Relação type/token com valores negativos Valor inválido para um atributo Número de palavra de um texto é maior ou igual ao número de sentenças Violação de relações previamente estabelecidas entre atributos Se a inconsistência é gerada de forma aleatória pode ser considerada um tipo de ruído Para corrigir este problema é necessário coletar novamente os dados Seleção de dados Problemas com os dados
67 Dados incompletos ou ausentes Dados incompletos ou ausentes Algumas soluções Comumente há instâncias que não tem o valor de um ou mais atributos Descartar instâncias com atributos ausentes Eficiente se as instâncias remanescentes são representativas e Proibitivo se as instâncias mais significativas possuírem valores ausentes Descartar atributos com valores ausentes Eficiente se os atributos não são significativos para solucionar o problema Estimar valores ausentes média, mediana, moda, etc. Seleção de dados Problemas com os dados
68 Outiliers Outliers Algumas soluções Instâncias que apresentam características diferentes do resto das instâncias ou um atributo com um valor pouco usual com respeito aos valores típicos do atributo. Valores fora do padrão nem sempre são um problema Identificação de catáforas Seleção de dados Problemas com os dados
69 Atributos não representativos Aquivo Número de Número de Palavras/ Type/ Possui Palavras Sentenças Sentenças Token sentenças na voz passiva? Classe Texto1.txt Não Jornal O atributo arquivo é necessário para a tarefa? Texto2.txt Sim Literatura Texto3.txt Sim Jornal Texto4.txt Não Jornal Texto5.txt Sim Literatura Texto1.txt Sim Jornal Seleção de dados Problemas com os dados
70 Atributos complementares Aquivo Número de Número de Palavras/ Type/ Possui Palavras Sentenças Sentenças Token sentenças na voz passiva? Classe Texto1.txt Não Jornal E estes atributos? Texto2.txt Sim Literatura Texto3.txt Sim Jornal Texto4.txt Não Jornal Texto5.txt Sim Literatura Texto1.txt Sim Jornal Seleção de dados Problemas com os dados
71 Seleção de Dados Algumas soluções Atributos desnecessários Descartar!!! Descartar os atributos número de palavras e número de sentenças palavras/sentenças é um combinação dos dois Agregação (técnica para redução de dados) Alguns algoritmos podem ter problemas (Naive Bayes) Seleção de dados Conceitos
72 Seleção de Dados Nem todos os problemas apresentados tem solução Por exemplo: ruídos são difíceis de identificar e/ou corrigir Portanto, conhecer a fundo os dados é fundamental para entender o problema E interpretar os resultados! Seleção de dados Conceitos
73 Pré-processamento Conjunto de estratégias e técnicas para melhorar o desempenho (tempo, custo e qualidade da solução) de algoritmos de AM Seleção de dados Amostragem (instâncias) Redução de dimensionalidade Agregação (atributos) Extração de características (atributos) Seleção de atributos (atributos) Transformação de variáveis (valores) É muito caro trabalhar com os dados completos e o consumo de tempo é elevado Pré-processamento Conceitos
74 Amostragem Técnica da estatística também muito útil para AM Seleção de um subconjunto de instâncias (amostra) Geralmente chega a resultados similares ao do conjunto A amostra precisa ser representativa!!! Aproximadamente mesmas propriedades do conjunto Deve fornecer uma estimativa da informação desejada contida na população original Deve permitir tirar conclusões de um todo a partir de uma parte Pré-processamento Amostragem
75 Redução de dimensionalidade Conjuntos da dados com um número muito grande de atributos pode atrapalhar a tarefa Exemplos: text mining cada atributo é uma palavra com sua frequência Traz benefícios: Melhora eficácia e eficiência dos algoritmos Reduz o tamanho necessário da amostra Facilita interpretação e visualização dos dados Exemplos: Processamento de textos Eliminação das stop-words e emprego de lematizadores Pré-processamento Redução de dimensionalidade
76 Maldição de dimensionalidade A medida que o número de atributos aumenta aumenta o número de generalizações ruins, MAS que parecem boas 1 atributo com 10 possíveis valores 10 objetos 5 atributos com 10 possíveis valores 10 5 objetos Enquanto o número de atributos cresce suavemente o número instâncias necessárias para uma boa generalização explode Pré-processamento Redução de dimensionalidade
77 Maldição de dimensionalidade Imagem retirada de: Pré-processamento Redução de dimensionalidade
78 Técnicas para reduzir dimensionalidade Agregação Extração de Características Seleção de Atributos Pré-processamento Redução de dimensionalidade
79 Agregação Combinação de instâncias e atributos Redução dos dados Dados mais estáveis (menos variabilidade) Exemplos: Stemming/lematização em text mining Combinar os atributos número de palavras e número de sentença no lugar de trabalhar com os dois atributos Pré-processamento Redução de dimensionalidade
80 Extração de Características Parte dos atributos definidos podem ser desnecessários ou redundantes Em text mining muitos atributos podem ser irrelevantes (palavras sem conteúdo (artigos, preposições) ou marcas de pontuação) Reconhecimento de Fala Áudio bruto não é um bom atributo para reconhecimento de voz uso de harmônicas de frequência O problema é selecionar o conjunto de atributos que representam melhor os dados Problema: pode ser impossível interpretar os atributos Técnica muito utilizada para domínios em que não é necessário interpretar os atributos (ex: reconhecimento de imagens) Pré-processamento Redução de dimensionalidade
81 Seleção de Atributos Seleção por ordenação ordena os atributos de acordo com sua relevância (para discriminar classes individualmente) e seleciona segunda uma medida Emprega medidas Estatísticas ou da Teoria da Informação Seleção de subconjunto seleciona de acordo a relevância mutua do subconjunto Pré-processamento Extração de Características
82 Seleção de Atributos Filtros realizado a priori e não envolve o algoritmo de classificação (algoritmo alvo) Wrappers algoritmo alvo é usado para guiar a seleção de atributos Embedded seleção ocorre internamente e como parte do algoritmo Pré-processamento Extração de Características
83 Filtros Fácil e rápido Baseado em medidas de informação mútua ou correlação entre os atributos Apenas propriedades intrínsecas dos dados são consideradas Seleção indireta pode levar a resultados inferiores Extração de Características Seleção de Atributos
84 Filtros Mais utilizado no WEKA: InfoGain por ordenação CfsSubsetEval subconjunto Podemos utilizar filtros como este para verificar quais atributos possuem melhor desempenho Exemplo: Classificação de textos por gênero usando atributos de inteligibilidade quais atributos apresentam o melhor desempenho? Extração de Características Seleção de Atributos
85 Wrappers Guiado pelo algoritmo alvo Seleciona os atributos que maximizam a performance do algoritmo Pode ser custuso demais Extração de Características Seleção de Atributos
86 Embedded Seleção de atributos faz parte da estratégia do algoritmo Exemplo clássico: Árvores de decisão!! Veremos árvores mais adiante... Extração de Características Seleção de Atributos
87 Ajustando os dados Além das transformações dos atributos, as vezes é necessário ajustar os valores Normalização Dados numéricos com grande variação Ex: menor valor 500 milhões e maior valor milhões Propriedades estatística indesejadas (não Gaussiana) Os dados são transformados para o intervalo [0,1] o maior valor será 1, o menor 0, e os outros são calculados por regra de três. Alterar as unidades de medida dos atributos Adicionar ou subtrair uma constante e dividir ou multiplicar pela constante Para dados com distribuição Gaussiana Subtrair a média e dividir pelo desvio padrão Pré-processamento Transformação de dados
88 Pré-processamento Esta etapa é muito importante pois interfere diretamente na etapa posterior Conhecer bem os dados e saber aplicar corretamente as técnicas de pré-processamento é, algumas vezes, mais importante do que a escolha do próprio algoritmo! Cuidado para não ser traído pelos próprios dados!!! Pré-processamento Conclusão
89 Roteiro da parte 3: processando traços Algoritmos de classificação Avaliando resultados
90 Algoritmos de classificação Classificação Classificação é feita com base nos atributos dos objetos Exemplo: diagnóstico de um paciente é feito com base nos sintomas observados e os exames realizados Associar objetos a uma categoria ou classe Exemplo: diagnóstico de pacientes (saudável ou doente), classificação de textos (simples ou complexo) Quando são duas classes classificador binário Aprendemos a classificar melhor com o tempo à medida que observamos novos exemplos Algoritmos de Classificação
91 Algoritmos de classificação Classificação Existem várias técnicas, para diferentes contextos... O sucesso de cada técnica depende da tarefa que está sendo desenvolvida Métodos simples, geralmente, funcionam bem e apresentam bons resultados Algoritmos caixa branca são usados quando explicitar o conhecimento é importante. Algoritmos caixa preta é usado para otimizar desempenho do classificador. Algoritmos de Classificação
92 Algoritmos de Classificação Baseado em regras Probabilísticos Baseados em funções matemáticas Baseados em instâncias Baseado em árvores Algoritmos de Classificação Tipos
93 Baseado em regras Simples, mas capaz de alcançar bons resultados Para cada atributo são elaboradas regras de acordo com os valores deste atributo Uma boa estratégia para começar! Try the simplest thing first É possível entender o processo (o resultado é interpretável) 1-rule WEKA: OneR Algoritmos de Classificação Baseados em Regras
94 Baseado em regras Emprego Estado Renda Crédito Sim Solteiro 9500 Sim Não Casado 8000 Não Não Solteiro 7000 Não Sim Casado Sim Não Divorciado 9000 Sim Não Casado 6000 Não Sim Divorsiado 4000 Não Não Solteiro 8500 Sim Não Casado 7500 Não Não Solteiro 9000 Não r1: Emprego=Não Crédito = Não Emprego=Sim Crédito=Sim r2: Emprego=Sim e Estado = Solteiro e Renda > 6000 Crédito =Sim r3: Emprego=Sim e Renda > Crédito=Sim Baseado em Regras Exemplo
95 Probabilísticos Relação entre atributos de entrada e a classe é probabilística Exemplo: Predizer se uma pessoa terá problemas de coração Duas classes Doente e Saudável Atributos de Entrada: peso e frequência de exercícios físicos Modelam relacionamento probabilístico entre atributos de entrada e atributo alvo (classe) Algoritmos de Classificação Probabilísticos
96 Probabilísticos Usam todos os atributos Assumir que todos contribuem igualmente Assumir que são independentes entre si Atributos independentes? praticamente impossível Porém, apresentam resultados consideravelmente bons Considera teoria de probabilidade para definir as contribuições de cada atributo Algoritmo mais famoso: NaiveBayes WEKA: mesmo nome Baseado na teoria de Bayes Algoritmos de Classificação Probabilísticos
97 Baseados em funções matemáticas Utilizam métodos lineares e não lineares para classificação Adequado para dados numéricos Algoritmo mais famoso: SVM WEKA: SMO Não é possível interpretar o resultado (caixa preta) Algoritmos de Classificação Baseados em funções matemáticas
98 Baseados em instâncias Utiliza uma medida de distância para definir quais instâncias dos dados de treinamento está mais próxima de um dado de teste (desconhecido) Conhecidos como algoritmo preguiçoso Não geram um modelo previamente Para classificar um novo objeto olha os dados Medidas mais utilizadas: Distancia Euclidiana e Distancia Coseno Algoritmos de Classificação Baseados em distância
99 Baseados em instâncias Se anda como um cachorro e late como um cachorro, então provavelmente é um... Conjunto de dados Distância Uma nova instância Algoritmos de Classificação Baseados em distância
100 Algoritmo KNN Vizinhos mais próximos Algoritmo mais conhecido: K-NN Weka: IBK 1 Vizinho mais próximo K vizinhos mais próximos Baseados em distâncias Algoritmo KNN Seja k o número de vizinhos mais próximos Para cada novo exemplo Definir a classe dos k exemplos mais próximos Classificar exemplo na classe majoritária entre seus vizinhos
101 Quantidade de vizinhos? Algoritmo KNN Se K muito grande os vizinhos podem ser muito diferentes Se K muito pequeno não há informação suficiente Baseados em distâncias Algoritmo KNN
102 Dividir para Conquistar! Baseados em árvores Um problema complexo é dividido em problemas menores e mais simples Repete o processo recursivamente para cada novo problema Eficaz, eficiente e produz modelos interpretáveis Algoritmos de classificação Baseados em árvores
103 Baseados em árvores Nó raiz >=200 Palavras por sentenças <200 Nó intermediário Type/token Simples >=0.85 <0.85 Nós folhas Complexo Simples Nó raiz e nós intermediários são atributos Nós folhas são as classes Algoritmos de classificação Baseados em árvores
104 Baseados em árvores Indica quais atributos são mais importantes para a classificação FILTRO C4.5 um dos algoritmos mais usados No WEKA: J48 Algoritmos de classificação Baseados em árvores
105 Algoritmos de classificação Mais utilizados SMO J48 Naive Bayes Algoritmos de classificação Baseados em árvores
106 Avaliação dos resultados Desempenho do classificador Dados para treino/validação Dados para teste Métodos de Amostragem Hold-out Cross-validation Algoritmos de classificação Avaliação dos resultados
107 Desempenho de um classificador O classificador deve manter um desempenho adequado para novos conjuntos de dados Estimar a capacidade de generalização do classificador Avaliar a variância (estabilidade) do classificador O conjunto de dados é separado em conjunto de treinamento e conjunto de teste Vários métodos de amostragem dos dados Avaliação dos resultados Desempenho de um classificador
108 Métodos de amostragem Empregados para avaliar o desempenho de um classificador separar em amostras de treinamento e teste Usando os mesmos dados para treinamento e teste podese obter resultados muito otimistas e não reais Principais métodos Hold-out Cross validation Avaliação dos resultados Métodos de amostragem
109 Métodos de amostragem Hold-out Técnica mais simples Divide o conjunto de dados em: Conjunto de treinamento: comunmente 1/2 ou 2/3 dos dados Conjunto de teste: os dados restantes Conjuntos de treinamento e teste não são independentes Usado em grandes conjuntos de dados Avaliação dos resultados Métodos de amostragem
110 Métodos de amostragem Utilizam várias partições do conjunto original de dados para constituir os conjuntos de treinamento e teste Cross-Validation (Validação Cruzada) Divide conjunto de dados em k partições mutuamente exclusivas A cada iteração, uma das k partições é usada para testar o modelo As outras k 1 são usadas para treinar o modelo Taxa de erro é tomada como a média dos erros de teste das k partições Avaliação dos resultados Métodos de amostragem
111 Métodos de amostragem Cross-Validation (Validação Cruzada) Modificada de: Avaliação dos resultados Métodos de amostragem
112 Métodos de amostragem Geralmente utiliza-se k = 10 (10-fold cross-validation) padrão do WEKA Hold-out no WEKA Supplied test set (deve-se dividir o ARFF antes) Avaliação dos resultados Estimativa de erros
113 Desempenho de um classificador Treinamento pode ser insuficiente levando a generalização ruins (undertraining), ou mais que o ideal gerando memorização dos padrões de treinamento (overtraining). Conjunto de teste é usado para prevenir isso. Avaliação dos resultados Estimativa de erros
114 Avaliação dos resultados Matriz de confusão Tipos de erros Precisão Cobertura Medida F Acurácia Avaliação dos resultados
115 Matriz de confusão Matriz de confusão Classe Prevista Classe Verdadeira Jornal Científico Literatura Jornal Científico Literatura Realmente Jornal P N Predito Jornal P N VP FN FP VN Avaliação dos resultados Estimativa de erros
116 Tipos de erros Para duas classes, em geral se adota a convenção de rotular os exemplos da classe de maior interesse como positivos (+) Classe rara ou minoritária Demais exemplos são rotulados como negativos ( ) Exemplo: diagnóstico negativo para indivíduo doente... Avaliação dos resultados Estimativa de erros
117 Tipos de erros Falso Positivo (FP) Um exemplo N foi classificado como P Exemplo: Diagnosticado como doente (classe +) mas está saudável (classe -) Falso Negativo (FN) Um exemplo P foi classificado como N Exemplo: Diagnosticado como saudável (classe -), mas está doente (classe +) Avaliação dos resultados Estimativa de erros
118 Matriz de confusão Matriz de confusão Classe Prevista Classe Verdadeira Jornal Científico Literatura Jornal Científico Literatura Realmente Jornal P N Predito Jornal P N VP FN FP VN Avaliação dos resultados Estimativa de erros
119 Cobertura & Precisão Cobertura (recall) Taxa com que classifica como positivos todos os exemplos que são positivos Nenhum exemplo positivo é deixado de fora Tudo o que é relevante foi recuperado? Todos os exemplos da classe X foram classificados como X? Avaliação dos resultados Avaliação de desempenho
120 Cobertura & Precisão Precisão Taxa com que todos os exemplos classificados como positivos são realmente positivos Nenhum exemplo negativo é incluído Tudo o que foi recuperado é relevante? Todos os exemplos classificados como X são da classe X Avaliação dos resultados Avaliação de desempenho
121 Precisão Primeira classe: primeiro item da diagonal dividido pela soma da primeira coluna Segunda classe: segundo item dividido pela soma da segunda coluna Terceira classe: terceiro item dividido pela soma da terceira coluna Avaliação dos resultados Avaliação de desempenho
122 Cobertura Primeira classe: primeiro item da diagonal dividido pela soma da primeira linha Segunda classe: segundo item dividido pela soma da segunda linha Terceira classe: terceiro item dividido pela soma da terceira linha Avaliação dos resultados Avaliação de desempenho
123 Cobertura & Precisão São medidas locais: Avaliam classe a classe Avaliação dos resultados Avaliação de desempenho
124 Medida-F Média harmônica da precisão e da cobertura Procura otimizar precisão e cobertura a média harmônica é mais influenciada pela pior medida Também é uma medida local Versão não ponderada da medida: 2* prec cob prec+cob Avaliação dos resultados Avaliação de desempenho
125 Medida-F Em verde: classificado como a classe X Em azul: classificado com as demais classes (U universo) Ideal Quando pensamos só na precisão Quando pensamos só na cobertura X U X U X U exemplos classificados como positivos são realmente positivos classifica como positivos todos os exemplos que são positivos Avaliação dos resultados Avaliação de desempenho
126 Acurácia Soma da diagonal dividida pela soma de todos os elementos É uma medida global Avalia todas as classes juntas Cuidado!! Pode ser enganosa em classes desbalanceadas Nesse caso pode ser melhor utilizar as médias das coberturas, médias das precisões e a medida F correspondente Avaliação dos resultados Avaliação de desempenho
127 Hands-on: WEKA
128 Roteiro do hands-on Arquivos.ARFF Classificação de textos por complexidade Seleção de atributos Classificação de textos por domínio Métricas de complexidade Bag-of-words (com seleção de atributos)
129 Download Fazer o download do arquivo EBRALC_ARFF.zip Site: Minicursos Aprendizado de Máquina para tarefas de PLN Arquivos.ARFF
130 Arquivos.ARFF Arquivos de entrada do WEKA Tem duas partes: Cabeçalho Nome da relação Lista de atributos com os tipos Dados Dados separados por vírgula e seguindo a ordem em que os atributos são definidos no cabeçalho
131 tamanho peso class {basquete,levantamento} 1.79,88,basquete 1.86,94,levantamento 1.56,56,levantamento 2.05,106,basquete 1.83,145,levantamento 1.95,89,basquete Dados
132 Arquivos.ARFF Importante manter a estrutura do ARFF Sem esta estrutura o WEKA não funciona!! Os atributos podem ser dos tipos: Numeric (inteiros ou reais) <nominal-specification> (classe entre { }) String Date [<date-format>]
133 Primeiros passos Selecione a opção Explorer
134 Classificação de textos (complexidade) Arquivo: complexidade.arff Córpus Número de Número de Média de palavras Classe textos palavras por textos ZH jornalístico ,518 Complexo CH divulgação científica ,146 Complexo PSFL jornalístico ,006 Simples CHC divulgação científica ,701 Simples
135 Classificação de textos (complexidade) Atributos 49 métricas do Coh-Metrix-Port Métricas de complexidade textual Exemplos: índice Flesch, Pronomes por sintagmas, número de palavras de conteúdo, referência anafórica adjacente...
136 Classificação de textos (complexidade) Selecione Open file...
137 Classificação de textos (complexidade) Selecine Classify
138 Classificação de textos (complexidade) Selecine Choose trees J48
139 Classificação de textos (complexidade)
140 Classificação de textos (complexidade) Repitam o processo: Selecionem Choose functions SMO
141 Seleção de Atributos Selecine Select attributes
142 Seleção de Atributos
143 Seleção de Atributos Botão direito Save reduced data...
144 Classificação de textos (complexidade) Repitam o processo: Utilizem o novo arquivo Classificação
145 Classificação de textos (complexidade)
146 Classificação de textos (domínio) atributos de complexidade Arquivo: dominio.arff Textos extraídos da Wikipedia 13 domínios: arte, biografias, ciências exatas, ciências da natureza, ciências sociais, cultura e sociedade, desporto, geografia, história, literatura, musica, religião, tecnologia Cada classe com 12 textos (total: 156)
147 Classificação de textos (domínio) atributos de complexidade
148 Classificação de textos (domínio) atributos de complexidade Remover atributo texto
149 Classificação de textos (domínio) atributos de complexidade
150 Classificação de textos (domínio) atributos de complexidade Repitam o processo: Utilizem os classificadores nos novos dados
151 Classificação de textos (domínio) atributos de complexidade
152 Seleção de Atributos Repitam o processo: Apliquem seleção de atributos para os novos dados
153 Classificação de textos (domínio) atributos de complexidade Somente 3 atributos selecionados
154 Seleção de Atributos Repitam o processo: Guardem o arquivo.arff somente com os 3 atributos Realizem a classificação novamente Resultados??? Pior com seleção de atributos!!! Por isso, conhecer os atributos e os domínios é muito importante!!!
155 Classificação de textos (domínio) bagof-words Utilizando o WEKA para geração dos atributos Atributos são as próprias palavras Passos: Abrir um prompt de comando do Windows ou um Shell do Linux Entrar na pasta do WEKA Digitar o comando: java -cp weka.jar weka.core.converters.textdirectoryloader -dir text_example > bag.arff
156 Classificação de textos (domínio) bagof-words Abrir o arquivo bag.arff no WEKA Necessário a aplicação do filtro StringtoVector do WEKA
157 Classificação de textos (domínio) bagof-words Selecione Choose filters unsupervised attribute StringtoWordVector
158 Classificação de textos (domínio) bagof-words Usar os dados e repetir o processo: Aplicar classificação Realizar seleção de atributos Aplicar classificação novamente Resultados?? Melhor do que as métricas de complexidade Conclusão: nem sempre as métricas mais robustas são as melhores para a aplicação!!
159 Classificação de textos (domínio) bagof-words Visualizar a árvore de decisão: Botão direito sobre o modelo Visualize tree
160 Classificação de textos (domínio) bagof-words
161 Créditos Slides baseados nas notas de aula dos Professores: Ricardo Campello André C. P. L. F. de Carvalho
Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística
Aula 4 Conceitos Básicos de Estatística Aula 4 Conceitos básicos de estatística A Estatística é a ciência de aprendizagem a partir de dados. Trata-se de uma disciplina estratégica, que coleta, analisa
Leia maisLista de Exercícios Tratamento de Incerteza baseado em Probabilidade
Lista de Exercícios Tratamento de Incerteza baseado em Probabilidade 1) Explique o termo probabilidade subjetiva no contexto de um agente que raciocina sobre incerteza baseando em probabilidade. 2) Explique
Leia maisAula 4 Estatística Conceitos básicos
Aula 4 Estatística Conceitos básicos Plano de Aula Amostra e universo Média Variância / desvio-padrão / erro-padrão Intervalo de confiança Teste de hipótese Amostra e Universo A estatística nos ajuda a
Leia maisESTUDO DE VIABILIDADE. Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos
ESTUDO DE VIABILIDADE Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos Objetivos O que é um estudo de viabilidade? O que estudar e concluir? Benefícios e custos Análise de Custo/Benefício
Leia maisAvaliando o que foi Aprendido
Avaliando o que foi Aprendido Treinamento, teste, validação Predição da performance: Limites de confiança Holdout, cross-validation, bootstrap Comparando algoritmos: o teste-t Predecindo probabilidades:função
Leia mais3 Estratégia para o enriquecimento de informações
34 3 Estratégia para o enriquecimento de informações Podemos resumir o processo de enriquecimento de informações em duas grandes etapas, a saber, busca e incorporação de dados, como ilustrado na Figura
Leia maisExtração de Conhecimento & Mineração de Dados
Extração de Conhecimento & Mineração de Dados Nesta apresentação é dada uma breve introdução à Extração de Conhecimento e Mineração de Dados José Augusto Baranauskas Departamento de Física e Matemática
Leia maisO Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados
SUMÁRIO - AULA1 O Processo de KDD O processo de KDD Interpretação e Avaliação Consolidação de dados Seleção e Pré-processamento Warehouse Data Mining Dados Preparados p(x)=0.02 Padrões & Modelos Conhecimento
Leia maisNotas de Cálculo Numérico
Notas de Cálculo Numérico Túlio Carvalho 6 de novembro de 2002 2 Cálculo Numérico Capítulo 1 Elementos sobre erros numéricos Neste primeiro capítulo, vamos falar de uma limitação importante do cálculo
Leia maisTrabalho 7 Fila de prioridade usando heap para simulação de atendimento
Trabalho 7 Fila de prioridade usando heap para simulação de atendimento Data: 21/10/2013 até meia-noite Dúvidas até: 09/10/2013 Faq disponível em: http://www2.icmc.usp.br/~mello/trabalho07.html A estrutura
Leia maisGuia de Acesso para os Cursos Online
Sumário Apresentação... 3 1. Como saber qual disciplina faz parte do meu Módulo?... 4 2. Como saber a ordem das aulas que devo assistir?... 6 3. Como faço para assistir aos vídeos e visualizar os materiais
Leia maisRegras Métodos Identificadores Variáveis Constantes Tipos de dados Comandos de atribuição Operadores aritméticos, relacionais e lógicos
Lógica Aula 2 Técnicas de Programação Criando algoritmos Regras Métodos Identificadores Variáveis Constantes Tipos de dados Comandos de atribuição Operadores aritméticos, relacionais e lógicos Criando
Leia maisExercícios Teóricos Resolvidos
Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Matemática Exercícios Teóricos Resolvidos O propósito deste texto é tentar mostrar aos alunos várias maneiras de raciocinar
Leia maisTop Guia In.Fra: Perguntas para fazer ao seu fornecedor de CFTV
Top Guia In.Fra: Perguntas para fazer ao seu fornecedor de CFTV 1ª Edição (v1.4) 1 Um projeto de segurança bem feito Até pouco tempo atrás o mercado de CFTV era dividido entre fabricantes de alto custo
Leia mais4 Experimentos. 4.4 detalha os experimentos com os algoritmos V-Wrapper e NCE. 4.1
4 Experimentos A estratégia V-Wrapper descrita por Zheng et. al (ZSW07), resumida no Capítulo 2, foi implementada com a finalidade de comparar um método baseado em atributos visuais com o algoritmo proposto
Leia maisEnergia Eólica. Atividade de Aprendizagem 3. Eixo(s) temático(s) Ciência e tecnologia / vida e ambiente
Energia Eólica Eixo(s) temático(s) Ciência e tecnologia / vida e ambiente Tema Eletricidade / usos da energia / uso dos recursos naturais Conteúdos Energia eólica / obtenção de energia e problemas ambientais
Leia maisMINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br
MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para
Leia maisPlanejamento - 7. Planejamento do Gerenciamento do Risco Identificação dos riscos. Mauricio Lyra, PMP
Planejamento - 7 Planejamento do Gerenciamento do Risco Identificação dos riscos 1 O que é risco? Evento que representa uma ameaça ou uma oportunidade em potencial Plano de gerenciamento do risco Especifica
Leia maisRELATÓRIOS GERENCIAIS
RELATÓRIOS GERENCIAIS Neste treinamento vamos abordar o funcionamento dos seguintes relatórios gerenciais do SisMoura: Curva ABC Fluxo de Caixa Semanal Análise de Lucratividade Análise Financeira o Ponto
Leia maisManual das planilhas de Obras v2.5
Manual das planilhas de Obras v2.5 Detalhamento dos principais tópicos para uso das planilhas de obra Elaborado pela Equipe Planilhas de Obra.com Conteúdo 1. Gerando previsão de custos da obra (Módulo
Leia maisAula 1: Demonstrações e atividades experimentais tradicionais e inovadoras
Aula 1: Demonstrações e atividades experimentais tradicionais e inovadoras Nesta aula trataremos de demonstrações e atividades experimentais tradicionais e inovadoras. Vamos começar a aula retomando questões
Leia maisITIL v3 - Operação de Serviço - Parte 1
ITIL v3 - Operação de Serviço - Parte 1 É na Operação de Serviço que se coordena e realiza as atividades e processos necessários para fornecer e gerenciar serviços em níveis acordados com o usuário e clientes
Leia maisGERA GESTÃO E CONTROLE DE TÍTULOS: parte I
Olá! Você verá a seguir um importante treinamento que vai facilitar suas atividades diárias! Ao acessá-lo pela primeira vez, procure assistir até o final. Caso não consiga, você poderá reiniciar de onde
Leia maisALGORITMOS E FLUXOGRAMAS
ALGORITMOS E FLUXOGRAMAS Prof. André Backes INTRODUÇÃO Computadores = cérebros eletrônicos? Computadores são máquinas e, por si sós, não podem ser inteligentes. Alguém as projetou e deu a ela todas as
Leia maisApresentação de Dados em Tabelas e Gráficos
Apresentação de Dados em Tabelas e Gráficos Os dados devem ser apresentados em tabelas construídas de acordo com as normas técnicas ditadas pela Fundação Instituto Brasileiro de Geografia e Estatística
Leia maisProf. Volney Ribeiro
A REDAÇÃO NO ENEM Prof. Volney Ribeiro Professor de língua portuguesa Especialista em Gestão Educacional Mestrando em Letras A prova de redação exigirá de você a produção de um texto em prosa, do tipo
Leia maistextos documentos semi-estruturado
1 Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semiestruturados
Leia maisA Matemática do ENEM em Bizus
A Matemática do ENEM em Bizus Neste primeiro artigo sobre a Matemática do ENEM, eu quero abordar a estratégia do conteúdo, tendo por base as provas anteriores e as tendências de abordagem. Quando confrontamos
Leia maisOlá, Professores e Professoras. É um prazer estar aqui com vocês novamente. Sejam bem-vindos!
Transcrição do vídeo Caixa de edição e texto Duração: 10 minutos e 26 segundos Olá, Professores e Professoras. É um prazer estar aqui com vocês novamente. Sejam bem-vindos! Hoje vamos conversar sobre um
Leia maisManual do Instar Mail v2.0
Manual do Instar Mail v2.0 Sumário Conteúdo Menu Principal... 2 Menu Cliente... 3 Pagina Categorias do Instar-Mail... 4 Importação... 4 Campanhas... 8 Cadastramento de campanhas do Instar-Mail... 9 Ações
Leia maisPrimeiros passos das Planilhas de Obra v2.6
Primeiros passos das Planilhas de Obra v2.6 Instalação, configuração e primeiros passos para uso das planilhas de obra Elaborado pela Equipe Planilhas de Obra.com Conteúdo 1. Preparar inicialização das
Leia maisREPRESENTAÇÃO DE DADOS EM SISTEMAS DE COMPUTAÇÃO AULA 03 Arquitetura de Computadores Gil Eduardo de Andrade
REPRESENTAÇÃO DE DADOS EM SISTEMAS DE COMPUTAÇÃO AULA 03 Arquitetura de Computadores Gil Eduardo de Andrade O conteúdo deste documento é baseado no livro Princípios Básicos de Arquitetura e Organização
Leia maisCAPÍTULO 1 Introduzindo SIG
CAPÍTULO 1 Introduzindo SIG Por muito tempo, estudou-se o mundo usando modelos como mapas e globos. Aproximadamente nos últimos trinta anos, tornou-se possível colocar estes modelos dentro de computadores
Leia maisO comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.
ESTATÍSTICA INDUTIVA 1. CORRELAÇÃO LINEAR 1.1 Diagrama de dispersão O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.
Leia mais4 Segmentação. 4.1. Algoritmo proposto
4 Segmentação Este capítulo apresenta primeiramente o algoritmo proposto para a segmentação do áudio em detalhes. Em seguida, são analisadas as inovações apresentadas. É importante mencionar que as mudanças
Leia maisResolvendo problemas com logaritmos
A UA UL LA Resolvendo problemas com logaritmos Introdução Na aula anterior descobrimos as propriedades dos logaritmos e tivemos um primeiro contato com a tábua de logarítmos. Agora você deverá aplicar
Leia maisUNIDADE 3 MEDIDAS DE POSIÇÃO E DISPERSÃO OBJETIVOS ESPECÍFICOS DE APRENDIZAGEM
Unidade 2 Distribuições de Frequências e Representação Gráfica UNIDADE 3 MEDIDAS DE POSIÇÃO E DISPERSÃO OBJETIVOS ESPECÍFICOS DE APRENDIZAGEM Ao finalizar esta Unidade, você deverá ser capaz de: Calcular
Leia maisOs gráficos estão na vida
Os gráficos estão na vida A UUL AL A Nas Aulas 8, 9 e 28 deste curso você já se familiarizou com o estudo de gráficos. A Aula 8 introduziu essa importante ferramenta da Matemática. A Aula 9 foi dedicada
Leia maisUNIVERSIDADE FEDERAL DO AMAPÁ PRÓ REITORIA DE ADMINISTRAÇÃO E PLANEJAMENTO DEPARTAMENTO DE INFORMÁTICA. Manual do Moodle- Sala virtual
UNIVERSIDADE FEDERAL DO AMAPÁ PRÓ REITORIA DE ADMINISTRAÇÃO E PLANEJAMENTO DEPARTAMENTO DE INFORMÁTICA Manual do Moodle- Sala virtual UNIFAP MACAPÁ-AP 2012 S U M Á R I O 1 Tela de Login...3 2 Tela Meus
Leia maisCapítulo SETE Números em Ponto Fixo e Ponto Flutuante
Capítulo SETE Números em Ponto Fixo e Ponto Flutuante 7.1 Números em ponto fixo Observação inicial: os termos ponto fixo e ponto flutuante são traduções diretas dos termos ingleses fixed point e floating
Leia maisAMOSTRAGEM ESTATÍSTICA EM AUDITORIA PARTE ll
AMOSTRAGEM ESTATÍSTICA EM AUDITORIA PARTE ll! Os parâmetros para decisão do auditor.! Tipos de planos de amostragem estatística em auditoria. Francisco Cavalcante(f_c_a@uol.com.br) Administrador de Empresas
Leia maisO Princípio da Complementaridade e o papel do observador na Mecânica Quântica
O Princípio da Complementaridade e o papel do observador na Mecânica Quântica A U L A 3 Metas da aula Descrever a experiência de interferência por uma fenda dupla com elétrons, na qual a trajetória destes
Leia maisEventos independentes
Eventos independentes Adaptado do artigo de Flávio Wagner Rodrigues Neste artigo são discutidos alguns aspectos ligados à noção de independência de dois eventos na Teoria das Probabilidades. Os objetivos
Leia mais4 Metodologia. 4.1. Tipo de pesquisa
4 Metodologia Este capítulo descreve a metodologia adotada na execução do trabalho de pesquisa: definição da variável alvo, delimitação da população, processo de seleção da amostra, técnicas e procedimentos
Leia maisA presente seção apresenta e especifica as hipótese que se buscou testar com o experimento. A seção 5 vai detalhar o desenho do experimento.
4 Plano de Análise O desenho do experimento realizado foi elaborado de forma a identificar o quão relevantes para a explicação do fenômeno de overbidding são os fatores mencionados na literatura em questão
Leia maisCaros amigos e alunos, este espaço destaquei para que vocês possam perceber alguns testes em relação ao autoconhecimento, inteligência, autoestima,
Testes em Geral Caros amigos e alunos, este espaço destaquei para que vocês possam perceber alguns testes em relação ao autoconhecimento, inteligência, autoestima, raciocínio lógico, empatia entre outros.
Leia maisTUTORIAL PARA PREPARAÇÃO E IMPORTAÇÃO DE DADOS PARA. Os dados de suas coletas devem ser organizados em uma planilha eletrônica, de modo
TUTORIAL PARA PREPARAÇÃO E IMPORTAÇÃO DE DADOS PARA ESTIMATIVAS DE RIQUEZA DE ESPÉCIES Softwares utilizados: Excel, EstimateS e Statistica. Preparação dos dados Os dados de suas coletas devem ser organizados
Leia maissoluções inovadoras para desafios de negócios Manual explicativo do quadro do modelo de negócios passo a passo com exemplos
soluções inovadoras para desafios de negócios Manual explicativo do quadro do modelo de negócios passo a passo com exemplos O quadro do modelo de negócios O Business Model Canvas (Quadro do Modelo de Negócios)
Leia mais3º Ano do Ensino Médio. Aula nº10 Prof. Daniel Szente
Nome: Ano: º Ano do E.M. Escola: Data: / / 3º Ano do Ensino Médio Aula nº10 Prof. Daniel Szente Assunto: Função exponencial e logarítmica 1. Potenciação e suas propriedades Definição: Potenciação é a operação
Leia maisClassificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões
Classificação de imagens Autor: Gil Gonçalves Disciplinas: Detecção Remota/Detecção Remota Aplicada Cursos: MEG/MTIG Ano Lectivo: 11/12 Sumário Classificação da imagem (ou reconhecimento de padrões): objectivos
Leia maisLógica para a Programação - 1º semestre AULA 01 Prof. André Moraes
Pág 4 Lógica para a Programação - 1º semestre AULA 01 Prof. André Moraes 1 APRESENTAÇÃO DA UNIDADE CURRICULAR A unidade curricular de Lógica para a programação tem como objetivo promover o estudo dos principais
Leia maisTrecho retirando do Manual do esocial Versão 1.1
Trecho retirando do Manual do esocial Versão 1.1 A rotina de acesso direto ao XML do S-1000, o usuário pode encontrar na opção de cadastro de Empresas do SIP. Sempre que o usuário localizar a figura ao
Leia maisEsse produto é um produto composto e tem subprodutos
Indústria - Cadastro de produtos O módulo indústria permite controlar a produção dos produtos fabricados pela empresa. É possível criar um produto final e definir as matérias-primas que fazem parte de
Leia maisc. Técnica de Estrutura de Controle Teste do Caminho Básico
1) Defina: a. Fluxo de controle A análise de fluxo de controle é a técnica estática em que o fluxo de controle através de um programa é analisado, quer com um gráfico, quer com uma ferramenta de fluxo
Leia maisAula 9 ESCALA GRÁFICA. Antônio Carlos Campos
Aula 9 ESCALA GRÁFICA META Apresentar as formas de medição da proporcionalidade entre o mundo real e os mapas através das escalas gráficas. OBJETIVOS Ao final desta aula, o aluno deverá: estabelecer formas
Leia mais6. Enumere de acordo com a primeira: A. Minimizar diminui o aplicativo, deixando-o na Barra de Tarefas.
LINUX EDUCACIONAL -Assinale a alternativa correta. 1. Para criar uma pasta devemos: Clicar no menu Exibir-Modo de Exibição Clicar com o botão direito onde gostaríamos de criá-la e em seguida Criar Novo
Leia maisEngenharia de Software II
Engenharia de Software II Aula 28 Revisão para a Prova 2 http://www.ic.uff.br/~bianca/engsoft2/ Aula 28-28/07/2006 1 Matéria para a Prova 2 Gestão de projetos de software Conceitos (Cap. 21) Métricas (Cap.
Leia maisUnidade 5: Sistemas de Representação
Arquitetura e Organização de Computadores Atualização: 9/8/ Unidade 5: Sistemas de Representação Números de Ponto Flutuante IEEE 754/8 e Caracteres ASCII Prof. Daniel Caetano Objetivo: Compreender a representação
Leia maiswww.iepes.com.br SPSS for Windows Conceitos Básicos Prof. Estevam Martins stvm@uol.com.br
SPSS for Windows Conceitos Básicos Prof. Estevam Martins stvm@uol.com.br "Sou artista suficientemente para desenhar livremente com minha imaginação. A imaginação é mais importante que o conhecimento. O
Leia mais1) Ao ser executado o código abaixo, em PHP, qual será o resultado impresso em tela?
Exercícios sobre Linguagem PHP: 1) Ao ser executado o código abaixo, em PHP, qual será o resultado impresso em tela? 2) Considere a linguagem de programação PHP e seus operadores. A execução da sentença:
Leia maisManual do Usuário - ProJuris Web - Biblioteca Jurídica Página 1 de 20
As informações contidas neste documento estão sujeitas a alterações sem o prévio aviso, o que não representa um compromisso da Virtuem Informática. As pessoas, organizações ou empresas e eventos de exemplos
Leia maisCurva ROC. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE
Curva ROC George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Introdução ROC (Receiver Operating Characteristics) Curva ROC é uma técnica para a visualização e a seleção de classificadores baseado
Leia maisProjudi Módulo de Correição. Tutorial Juiz Corregedor
Projudi Módulo Tutorial Juiz Corregedor Antes de mais nada, recomendamos que para a utilização do sistema Projudi você não utilize o navegador Internet Explorer, e sim os navegadores Chrome e Firefox 2
Leia maisOFICINA DE POWER POINT
OFICINA DE POWER POINT Barra de Ferramentas Padrão Barra de Ferramentas Formatação Barra de Menus Modos de Visualização Painéis de Tarefas Barra de Ferramentas Desenho Profª. Maria Adelina Raupp Sganzerla
Leia maisÁgua, fonte de vida. Aula 1 Água para todos. Rio 2016 Versão 1.0
Água, fonte de vida Aula 1 Água para todos Rio 2016 Versão 1.0 Objetivos 1 Analisar a quantidade de água potável disponível em nosso planeta 2 Identificar os diferentes estados da água 3 Conhecer o ciclo
Leia maisATIVIDADES PRÁTICAS SUPERVISIONADAS
ATIVIDADES PRÁTICAS SUPERVISIONADAS 1ª Série Empreendedorismo Administração A Atividade Prática Supervisionada (ATPS) é um procedimento metodológico de ensino-aprendizagem desenvolvido por meio de etapas,
Leia maisCADERNOS DE INFORMÁTICA Nº 1. Fundamentos de Informática I - Word 2010. Sumário
CADERNO DE INFORMÁTICA FACITA Faculdade de Itápolis Aplicativos Editores de Texto WORD 2007/2010 Sumário Editor de texto... 3 Iniciando Microsoft Word... 4 Fichários:... 4 Atalhos... 5 Área de Trabalho:
Leia maisINSTITUTO TECNOLÓGICO
PAC - PROGRAMA DE APRIMORAMENTO DE CONTEÚDOS. ATIVIDADES DE NIVELAMENTO BÁSICO. DISCIPLINAS: MATEMÁTICA & ESTATÍSTICA. PROFº.: PROF. DR. AUSTER RUZANTE 1ª SEMANA DE ATIVIDADES DOS CURSOS DE TECNOLOGIA
Leia maisConstrução do Boxplot utilizando o Excel 2007
1 Construção do Boxplot utilizando o Excel 2007 (1 Passo) Vamos digitar os dados na planilha. Para isso temos três banco de dados (Dados 1, Dados 2 e Dados 3), no qual irão gerar três Boxplot. Figura 1
Leia maisUNIPAMPA Universidade Federal do Pampa. Núcleo de Tecnologia da Informação (NTI)
UNIPAMPA Universidade Federal do Pampa Núcleo de Tecnologia da Informação (NTI) Instruções para gerenciamento dos sites em Joomla (versão 1.5.3) Níveis: Editor e Administrador Junho/2008 Í N D I C E Usuários
Leia mais4Distribuição de. freqüência
4Distribuição de freqüência O objetivo desta Unidade é partir dos dados brutos, isto é, desorganizados, para uma apresentação formal. Nesse percurso, seção 1, destacaremos a diferença entre tabela primitiva
Leia maisBem-vindo ao curso delta Gerenciamento de peso para a versão 9.1. Este curso aborda a nova solução de peso introduzida nessa versão.
Bem-vindo ao curso delta Gerenciamento de peso para a versão 9.1. Este curso aborda a nova solução de peso introduzida nessa versão. Você deve ter bons conhecimentos de estoque, UM e administração de posições
Leia maisFigura 1: tela inicial do BlueControl COMO COLOCAR A SALA DE INFORMÁTICA EM FUNCIONAMENTO?
Índice BlueControl... 3 1 - Efetuando o logon no Windows... 4 2 - Efetuando o login no BlueControl... 5 3 - A grade de horários... 9 3.1 - Trabalhando com o calendário... 9 3.2 - Cancelando uma atividade
Leia maisMetadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados
1. Introdução O governo é um dos maiores detentores de recursos da informação. Consequentemente, tem sido o responsável por assegurar que tais recursos estejam agregando valor para os cidadãos, as empresas,
Leia maisSuperintendência Regional de Ensino de Ubá - MG Núcleo de Tecnologia Educacional NTE/Ubá. LibreOffice Impress Editor de Apresentação
Superintendência Regional de Ensino de Ubá - MG Núcleo de Tecnologia Educacional NTE/Ubá LibreOffice Impress Editor de Apresentação Iniciando o Impress no Linux Educacional 4 1. Clique no botão 'LE' no
Leia maisTutorial 7 Fóruns no Moodle
Tutorial 7 Fóruns no Moodle O Fórum é uma atividade do Moodle que permite uma comunicação assíncrona entre os participantes de uma comunidade virtual. A comunicação assíncrona estabelecida em fóruns acontece
Leia maisSISTEMA MEDLINK E-TISS PASSO-A-PASSO (USE JUNTO COM A VÍDEO AULA)
1 / 16 SISTEMA MEDLINK E-TISS PASSO-A-PASSO (USE JUNTO COM A VÍDEO AULA) Este guia passo-a-passo tem o objetivo de facilitar o entendimento: - da ordem de execução dos processos. - dos conceitos do sistema.
Leia maisCentro Universitário Franciscano Material elaborado por: Professora Leandra Anversa Fioreze e Professor Clandio Timm Marques.
Conceitos Introdutórios 1. Definindo Estatística: Ciência que fornece métodos para a coleta, organização, descrição, análise e interpretação de dados, utilizando-os na tomada de decisões. 2. Divisão da
Leia maisUsando o do-file editor Automatizando o Stata
Usando o do-file editor Automatizando o Stata 1 O QUE É O EDITOR DE DO-FILE O Stata vem com um editor de texto integrado, o do-file editor (editor de do-files, em português), que pode ser usado para executar
Leia maisIntrodução. Capítulo. 1.1 Considerações Iniciais
Capítulo 1 Introdução 1.1 Considerações Iniciais A face humana é uma imagem fascinante, serve de infinita inspiração a artistas há milhares de anos. Uma das primeiras e mais importantes habilidades humanas
Leia maisCOMO PROGRAMAR SEU TIME
COMO PROGRAMAR SEU TIME 1) INSTALAÇÃO: Instale o simulador da categoria SIMUROSOT da FIRA. O simulador é gratuito e está disponível para download no site da FIRA (www.fira.net) ou no site da competição
Leia maisUML & Padrões Aula 3. UML e Padrões - Profª Kelly Christine C. Silva
UML & Padrões Aula 3 UML e Padrões - Profª Kelly Christine C. Silva 1 UML & Padrões Aula 3 Diagrama de Casos de Uso Profª Kelly Christine C. Silva O que vamos tratar: Modelos de Caso de Uso Diagrama de
Leia maisTutorial Gerenciador de Conteúdo Site FCASA
Tutorial Gerenciador de Conteúdo Site FCASA Versão 1.0* Bolt Brasil Comunicação Digital Tel: 31 3335 7100 www.bolt.com.br Rua Santa Catarina, 1627 15 andar Lourdes Belo Horizonte / MG CEP: 30170-081 *
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem
Leia maisMódulo 9 A Avaliação de Desempenho faz parte do subsistema de aplicação de recursos humanos.
Módulo 9 A Avaliação de Desempenho faz parte do subsistema de aplicação de recursos humanos. 9.1 Explicações iniciais A avaliação é algo que faz parte de nossas vidas, mesmo antes de nascermos, se não
Leia maisResolução de sistemas lineares
Resolução de sistemas lineares J M Martínez A Friedlander 1 Alguns exemplos Comecemos mostrando alguns exemplos de sistemas lineares: 3x + 2y = 5 x 2y = 1 (1) 045x 1 2x 2 + 6x 3 x 4 = 10 x 2 x 5 = 0 (2)
Leia maisENSINO E APRENDIZAGEM DE CIÊNCIAS BIOLÓGICAS, COM A UTILIZAÇÃO DE JOGOS DIDÁTICOS: RELATO DE EXPERIÊNCIA.
ENSINO E APRENDIZAGEM DE CIÊNCIAS BIOLÓGICAS, COM A UTILIZAÇÃO DE JOGOS DIDÁTICOS: RELATO DE EXPERIÊNCIA. Josilene Maria de Almeida 1 ; Rosângela Miranda de Lima 2 ; Maria Sônia Lopes da Silva; Maria Anunciada
Leia maisRoteiro SENAC. Análise de Riscos. Planejamento do Gerenciamento de Riscos. Planejamento do Gerenciamento de Riscos
SENAC Pós-Graduação em Segurança da Informação: Análise de Riscos Parte 2 Leandro Loss, Dr. Eng. loss@gsigma.ufsc.br http://www.gsigma.ufsc.br/~loss Roteiro Introdução Conceitos básicos Riscos Tipos de
Leia maisCriar as tabelas para um banco de dados
Treinamento Criar as tabelas para um banco de dados ANTES DE COMEÇAR O primeiro curso desta série, "Criar as tabelas de um novo banco de dados", forneceu uma lista de tabelas e campos para uso no banco
Leia maisO uso correto do texto alternativo
O uso correto do texto alternativo Tradução livre do texto Appropriate Use of Alternative Text [http://webaim.org/techniques/alttext/] O texto alternativo é, como o nome diz, uma alternativa aos elementos
Leia maisA CIÊNCIA DOS PEQUENOS JOGOS Fedato Esportes Consultoria em Ciências do Esporte
A CIÊNCIA DOS PEQUENOS JOGOS Fedato Esportes Consultoria em Ciências do Esporte Prof. Antonio Carlos Fedato Filho Prof. Guilherme Augusto de Melo Rodrigues Monitorando e conhecendo melhor os trabalhos
Leia maisEngenharia de Software II
Engenharia de Software II Aula 14 Revisão http://www.ic.uff.br/~bianca/engsoft2/ Aula 14-07/05/2006 1 Processo de Software Qual é a diferença entre uma atividade de arcabouço e uma atividade guarda chuva?
Leia maisEscalas. Antes de representar objetos, modelos, peças, A U L A. Nossa aula. O que é escala
Escalas Introdução Antes de representar objetos, modelos, peças, etc. deve-se estudar o seu tamanho real. Tamanho real é a grandeza que as coisas têm na realidade. Existem coisas que podem ser representadas
Leia maisA Maquina de Vendas Online É Fraude, Reclame AQUI
A Maquina de Vendas Online É Fraude, Reclame AQUI Muitas pessoas me perguntam se a maquina de vendas online é fraude do Tiago bastos funciona de verdade ou se não é apenas mais uma fraude dessas que encontramos
Leia maisPLANEJAMENTO OPERACIONAL - MARKETING E PRODUÇÃO MÓDULO 11 PESQUISA DE MERCADO
PLANEJAMENTO OPERACIONAL - MARKETING E PRODUÇÃO MÓDULO 11 PESQUISA DE MERCADO Índice 1. Pesquisa de mercado...3 1.1. Diferenças entre a pesquisa de mercado e a análise de mercado... 3 1.2. Técnicas de
Leia maisSumário. Introdução ao Microsoft Project. 1 Microsoft Project, gerenciamento de projetos e você 3. 2 Visão geral do Project 11.
Sumário Introdução... xiii A quem se destina este livro...xiii Como o livro está organizado...xiii Como baixar os arquivos de prática...xiv Suas configurações no Project...xv Suporte técnico...xvi Parte
Leia maisSistemas de Informação
Sistemas de Informação Prof. M.Sc. Diego Fernandes Emiliano Silva diego.femiliano@gmail.com Agenda Banco de dados Gerenciamento de banco de dados Sistemas de gerenciamento de banco de dados Como usar banco
Leia maisTecnologia da Informação Prof. Mário Henrique de Souza Pardo Resumo Aula 4
Tecnologia da Informação Prof. Mário Henrique de Souza Pardo Resumo Aula 4 1 MS-Excel Aplicando funções às suas fórmulas de Excel (continuação) Serão vistas, nesta aula as funções de busca e referência
Leia maisUTILIZANDO O SOFTWARE WEKA
UTILIZANDO O SOFTWARE WEKA O que é 2 Weka: software livre para mineração de dados Desenvolvido por um grupo de pesquisadores Universidade de Waikato, Nova Zelândia Também é um pássaro típico da Nova Zelândia
Leia mais