Avaliação de Classificadores Anti-spam Aplicada no Campo de Cabeçalho de From:

Tamanho: px
Começar a partir da página:

Download "Avaliação de Classificadores Anti-spam Aplicada no Campo de Cabeçalho de From:"

Transcrição

1 Avaliação de Classificadores Anti-spam Aplicada no Campo de Cabeçalho de From: Wallace A.B.S. de Macedo, Júlio Cesar Nievola Centro de Ciências Exatas e de Tecnologia Pontifícia Universidade Católica do Paraná (PUC-PR) Curitiba PR Brazil wallace@furukawa.com.br, nievola@ppgia.pucpr.br Abstract. With the appearance of the Internet, the became one of the fastest ways of communication. However this benefit has been threatened by Unsolicited Commercial know as Spam, undesirable messages that fill the post office boxes, make the user lose time and generate traffic in the Internet. The problem became more serious when in March of 2003 the spam number was higher than the number of legitimate messages in the Internet. Taking advantage of the scientific community's effort to solve the problem of the spam, an experiment is described showing the efficiency of some classifier algorithms when specifically applied in the field of header From:. In this experiment, besides the success rate, it was also considered the rates of False-positive that are legitimate messages classified by the algorithms as spam. Resumo. Com o surgimento da Internet, o se tornou um dos meios mais rápidos de comunicação. Entretanto, este benefício foi ameaçado pelo de E- mail Comercial Não solicitado conhecido como Spam, ou seja, mensagens indesejáveis que enchem as caixas postais, fazem o usuário perder tempo e geram tráfego na Internet. O problema tornou-se mais grave quando em março de 2003 o número de spams foi maior do que o número de mensagens legítimas na Internet. Aproveitando o esforço da comunidade científica para resolver o problema do spam, é descrita uma experiência mostrando a eficiência de alguns algoritmos classificadores quando aplicados especificamente no campo de cabeçalho de "From". Neste experimento, além das taxas de acerto, foram também consideradas as taxas de "Falso-positivo" que são mensagens legítimas classificadas pelos algoritmos como spam. 1. Introdução Durante alguns meses observou-se o comportamento de três sistemas anti-spam comerciais diferentes, instalados em uma provedora de gratuito, em uma empresa de grande porte e em outra de pequeno porte. Durante a observação foi verificado que os sistemas anti-spam não estavam detectando mensagens onde o campo do remetente continha textos com forma sem sentido.

2 Isto é, além de um endereço desconhecido, a maioria não permitia uma possível interpretação, conforme os exemplos a seguir: xyjcmrunlryd@hlssffqdee.com b7ydyhwe@rr.com gnophkyvmxlxbbnw@iytrivsmyt.org Estes endereços são constituídos de um conjunto de caracteres com o único propósito de despistar os sistemas de detecção de spam. Por se tratar de campo obrigatório na composição de mensagens eletrônicas, por haver poucos trabalhos voltados para campos de cabeçalho e não haver nenhuma pesquisa encontrada focada somente neste campo, resolveu-se aplicar técnicas de aprendizagem de máquina para avaliação deste. Muitas das ferramentas de filtragem de spam utilizam técnicas de aprendizagem de máquina somente no corpo da mensagem, deixando para as informações de cabeçalho técnicas puramente baseada em regras. Técnicas baseadas em regras são geralmente alimentadas por Listas Negras ou Listas Brancas, verificação de MX Records, DNS e outros, que possuem seu papel no processo da detecção, mas tem uma eficiência bastante limitada [ Sakkis et all, 2001]. 2. Metodologia A descoberta do conhecimento por si só é uma tarefa bastante exaustiva. Assim seguimos um modelo de trabalho para facilitar e atingir o resultado com maior precisão, através do processo simplificado de KDD (Knowledge Discovery from Databases). Conhecimento Padrões e Modelos Seleção e Pré-Processamento Dados Preparados Dados Consolidados Dados Originais Figura 1. O Processo de KDD A obtenção dos dados originais consiste em criar um conjunto de informações onde será aplicada a descoberta do conhecimento. De 70% a 80% do esforço foi gasto na consolidação e preparação dos dados. Estas fases são extremamente importantes na qualidade dos resultados. É justamente neste ponto

3 que se dá ênfase à limpeza e pré-processamento dos dados, desde a remoção de ruídos até a determinação de uma lista preliminar de atributos. Posteriormente, cabe decidir quais tarefas (p. ex. classificação, agrupamento ou regressão) podem ser apropriados e também selecionar quais os métodos e parâmetros podem ser utilizados, para a escolha do algoritmo de mineração de dados. Na última etapa tem-se a interpretação e avaliação do descobrimento obtido, adequando-o de forma que possa ser compreendido por usuários, tomando alguma ação ou simplesmente sendo disponibilizado para quem tiver interesse [Fayyad et all, 1996]. 3. Descrição dos Experimentos 3.1 Obtenção dos Dados Durante dois meses alguns funcionários de uma empresa multinacional foram selecionados para colaborar com a pesquisa. Para cada um destes funcionários foram criadas duas pastas compartilhas, Base Spam e Base Válido. Na primeira pasta foram ser armazenadas todas as mensagens que estes usuários consideraram spam, e na segunda pasta todas as mensagens que foram consideradas mensagens legítimas e que obviamente não comprometessem a privacidade de cada usuário. O objetivo desta fase foi fazer uma triagem do total das informações coletadas. 3.2 Consolidação dos Dados Primeiramente foi necessário extrair os endereços de campos de cabeçalho From: contidos nas bases de dados. Seguindo os padrões estabelecidos na RFC 822 [Request for Comments:822, 1982] foram extraídos somente os endereços inclusos entre os caracteres < e >. Nesta etapa foi verificada a possibilidade de mensagens consideradas spam estarem contidas na base de dados de mensagens válidas e vice-versa. Entretanto, não houve incidência de mensagens iguais entre as bases. Esta fase também serviu para criar duas bases de dados, com o propósito de avaliar dois conjuntos diferentes de atributos. Na primeira base de dados foram selecionados os endereços de contendo somente o parâmetro NOME, conforme exemplo a seguir: Ex: Endereço de nome@dominio.com Parâmetro extraído: nome Na segunda base de dados foram selecionados os endereços de contendo os parâmetros NOME e DOMÍNIO, conforme exemplo a seguir: Ex: Endereço de nome@dominio.com Parâmetros extraídos: nome, dominio

4 Ao final deste procedimento, ambos os conjuntos de dados resultaram em um montante de 5963 instâncias, sendo 2316 mensagens de spam e 3377 mensagens legítimas. 3.3 Determinação da Lista Preliminar de Atributos e Remoção de Outliers Nesta fase determinou-se a lista de caracteres alfa-numéricos relevantes que poderiam estar inclusos em cada endereço do campo de cabeçalho From:. Os caracteres selecionados foram: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, a, b, c, d, e, f, g, h, i, j, k, l, m, n, o, p, q, r, s, t, u, v, w, x, y, z, +, -,., _} Esta etapa também consistiu na remoção de exceções óbvias contidas em ambos conjunto de dados, como é o caso da eliminação do que é comum em todos os endereços de Pré-processamento Como o objetivo principal é analisar algoritmos classificadores sobre a freqüência de caracteres no campo From:, não houve a necessidade de remover atributos redundantes, pois estes são distintos, mas sim combinar atributos. Uma das combinações consistiu em eliminar a distinção entre caracteres maiúsculos e minúsculos. A partir daí, aplicou-se nas bases de dados um algoritmo para calcular a incidência de cada caractere em um endereço de . Basicamente utilizou-se a fórmula a seguir: f ( C ) na qual, f = freqüência do caractere sendo analisado; i n i = 1 = E C i C i = caractere analisado; E = Total de caracteres distintos no endereço de . O próximo passo foi atribuir um valor para mensagens caracterizadas como spam e também para as mensagens caracterizadas como legítimas. Assim, estavam criados dois conjuntos de dados, com seus atributos e valores especificados. 3.5 Classificação A escolha do algoritmo de classificação foi outro fator importante no prosseguimento da experiência. Foram escolhidos três algoritmos que vem sendo usado com maior freqüência nas pesquisas anti-spam e são citadas freqüentemente em seminários e congressos [Spam Conference 2003]. Os algoritmos selecionados foram:

5 a)naïve Bayes: As mais recentes pesquisas anti-spam utilizam soluções através de um classificador bayesiano [Billsus and Pazzani, 1999]. O teorema de Bayes mostra como calcular a probabilidade de um evento, considerando que já se sabe que outro evento aconteceu. A diferença entre Bayes para o Naïve Bayes é que este último considera os atributos independentes. b)adaboost: Este algoritmo utiliza o método de boosting, onde cada instância de treinamento tem um certo peso associado. Ao induzir o primeiro classificador, todas as instâncias são equiprováveis, isto é, tem o mesmo peso. Após ter induzido o primeiro classificador, os pesos das instâncias de treinamento classificadas incorretamente são alterados baseado nos classificadores que foram construídos anteriormente [Witten and Frank 1999]. c)c4.5: Algoritmo que gera árvore de decisão. Este algoritmo constrói um modelo de árvore de decisão baseado num conjunto de dados de treinamento, sendo que esse modelo é utilizado para classificar as instâncias do conjunto de teste [Quinlan 1993]. Como ferramenta para utilização destes algoritmos foi utilizado o ambiente Weka ( Waikato Environment for Knowledge Analysis ), versão 3.4, que possui uma série de implementações de algoritmos para técnicas de Mineração de Dados. O ambiente Weka está implementado na linguagem Java, que tem como principal característica ser portável, e de fácil instalação. Ele é um software de domínio público desenvolvido na Universidade de Waikato. No ambiente Weka, o algoritmo C4.5 na versão 8 foi implementado com o nome de J48 e o algoritmo AdaBoost foi implementado com o nome de AdaBoostM1. Para utilizar os dados obtidos no pacote Weka, é necessário antes converter as bases de dados em um formato de arquivo próprio da aplicação, denominado de ARFF ( Attribute Relation File Format ) [Weka Machine Learning Project]. 4. Resultado e Discussões Um dos grandes problemas e também o maior desafio na classificação automática de spam é a redução do número de falso-positivos, os quais são mensagens legítimas caracterizadas como spam por alguma técnica de filtragem e portanto não entregues ao destinatário. Hoje, os classificadores vem sendo avaliados pela sua da eficiência em detectar o maior número de spam, juntamente com a menor taxa de falso-positivos. Com base nestes fatos, considerou-se também como referência estas premissas para avaliação dos classificadores aplicados nesta experiência. Por se tratar de uma base de dados relativamente pequena, foi utilizada validação cruzada (fator 10) para todos os algoritmos. Na tabela 1 têm-se os resultados relativos à base de dados contendo NOME e DOMINIO do endereço de Tabela 1. Resultado dos Algoritmos Aplicados ao NOME e DOMÍNIO Naïve Bayes AdaBoost C4.5 Instâncias Corretamente Classificadas 87.08% 82.52% 95.08% Instâncias Incorretamente Classificadas 12.91% 17.47% 4.91%

6 Falso-Positivos 5.59% 1.06% 2.69% Falso-Negativos 23.57% 41.40% 7.94% Erro Médio Absoluto Erro Médio Relativo 26.66% 62.45% 11.85% Neste caso, o algoritmo AdaBoost apresentou a menor taxa de falso-positivos, o que seria o mais próximo do ideal, mas apresentou também uma taxa muito alta de falso-negativos o qual o desqualificaria na prática. Assim, no primeiro cenário o algoritmo que teve a melhor relação falso-positivos para falso-negativos foi o C4.5, mostrando baixas taxas em ambos, além de apresentar o melhor desempenho em instâncias corretamente classificadas. Na tabela 2 têm-se os resultados relativos à base de dados contendo somente o NOME do endereço de Tabela 2. Resultado dos Algoritmos Aplicados somente no NOME Naïve Bayes AdaBoost C4.5 Instâncias Corretamente Classificadas 89.74% 82.85% 96.11% Instâncias Incorretamente Classificadas 10.25% 17.14% 3.88% Falso-Positivos 2.45% 4.53% 2.39% Falso-Negativos 21.63% 35.53% 6.04% Erro Médio Absoluto Erro Médio Relativo 21.20% 51.76% 10.51% Neste cenário é possível ver uma melhora significativa dos algoritmos Naïve Bayes e C4.5 em instâncias corretamente classificadas, bem como a redução da taxa de falsopositivos. Entretanto o mesmo desempenho não aconteceu no algoritmo AdaBoost, onde pelo contrário, apesar de uma pequena melhora em acertos, a taxa de falso-positivos ficou muito acima do cenário anterior e também quando comparado com os demais algoritmos. O algoritmo C4.5 apresentou ainda a melhor relação falso-positivos para falso-negativos. 5. Conclusão Este artigo procurou examinar alguns algoritmos classificadores aplicados em endereços e- mail, tendo como premissa a freqüência de caracteres permitidos no campo de cabeçalho From:. Considerando que o usuário prefere receber cem mensagens de spam do que perder uma legítima, concluiu-se então que houve pouca diferença de resultados entre os dois cenários. Neste caso, a freqüência dos caracteres foi suficiente para a classificação do SPAM para dois algoritmos: Naïve Bayes e C4.5. O algoritmo C4.5, como algoritmo de árvore de decisão apontou a melhor relação entre falso-positivos e falso-negativos em ambos os cenários. Entretanto na prática, sua aplicabilidade em sistemas on-line ainda é limitada devido ao tempo que exige para o processamento.

7 Já a eficiência do algoritmo Adaboost para a detecção do spam foi muito ruim, quando aplicado em toda extensão do endereço de , mesmo apresentando um resultado excelente para falso-positivos. A maior surpresa ficou para o classificador utilizando Naïve Bayes, que apresentou um número de acertos também relativamente baixo. Apesar ainda do nível tolerável para falso-positivos, a taxa de falso-negativos foi relativamente alto. O que vimos aqui foi um fator já conhecido para representação deste tipo de classificador, que é a carência de regras. Para o futuro, espera-se avaliar os mesmos classificadores, aplicados no campo de cabeçalho From:, nos moldes de como são utilizados atualmente no corpo da mensagem de , ou seja, alimentando o algoritmo com outros atributos pré-definidos que caracterizam uma mensagem como spam ou não. Agradecimentos Agradecimentos a Furukawa Industrial S.A. Produtos elétricos pelo fornecimento da base de dados de mensagens, bem como aos seus funcionários que colaboraram na coleta destas informações, tornando viável esta pesquisa. A base de dados utilizada neste artigo, em formato ARFF está disponível no endereço: Referências Bibliográficas Sakkis, G., Androutsopoulos, I., Paliouras, G., Karkatletsis, V., Spyropoulos, C. D., & Stamatopoulos, P. (2001) Stacking classifiers for anti-spam filtering of -mail. 6 th Conference on Empirical Methods in Natural Language Processing, Pittsburg, USA. MessageLabs, Inc, (2003) consultado em 14/03/2003. Request for Comments: 822, (1982) Standard for the format of ARPA Internet Text Messages, Networking Group. Spam Conference 2003 (2003) MIT, USA, consultado em 10/02/2004. Billsus, D.; Pazzani, M.J. (1999) A Hybrid User Model for News Story Classification. International Conference On User Modeling, Banff, Canada. Witten, I.H. & Frank, E. (1999) Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann Publishers. Quinlan, R. (1993) C4.5: Programs for Machine Learning, Morgan Kaufmann Publishers, San Mateo, USA. Weka Machine Learning Project, The University of Waikato, New Zealand. consultado em 17/12/2003. Fayyad, U., Shapiro G. & Smyth P. (1996) From Data Mining to Knowledge Discovery in Databases, AI Magazine.

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS 6ª Jornada Científica e Tecnológica e 3º Simpósio de Pós-Graduação do IFSULDEMINAS 04 e 05 de novembro de 2014, Pouso Alegre/MG Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

Leia mais

Prof. Heitor Silvério Lopes

Prof. Heitor Silvério Lopes Prof. Heitor Silvério Lopes WEKA WEKA: Waikato Environment for Knowledge Analysis Iniciado em 1992, versão estável atual: 3.8.1 É um software para mineração de dados desenvolvido em Java com código aberto

Leia mais

19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA

19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA 19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA Autor(es) MIRELA TEIXEIRA CAZZOLATO Orientador(es) MARINA TERESA PIRES VIEIRA Apoio Financeiro PIBIC/CNPQ

Leia mais

18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA

18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA 18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA Autor(es) MIRELA TEIXEIRA CAZZOLATO Orientador(es) MARINA TERESA PIRES VIEIRA Apoio

Leia mais

Mineração de Dados em Biologia Molecular

Mineração de Dados em Biologia Molecular Mineração de Dados em Biologia Molecular WEKA Tópicos Introdução Simuladores de MD Principais módulos André C. P. L. F. de Carvalho Monitor: Váléria Carvalho André Ponce de Leon de Carvalho 2 Usando MD

Leia mais

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR Aprendizagem de Máquina Prof. Júlio Cesar Nievola PPGIA - PUCPR Introdução Justificativa Recente progresso em algoritmos e teoria Disponibilidade crescente de dados online Poder computacional disponível

Leia mais

Descoberta de conhecimento em redes sociais e bases de dados públicas

Descoberta de conhecimento em redes sociais e bases de dados públicas Descoberta de conhecimento em redes sociais e bases de dados públicas Trabalho de Formatura Supervisionado Bacharelado em Ciência da Computação - IME USP Aluna: Fernanda de Camargo Magano Orientadora:

Leia mais

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri Mineração de Dados Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri 1 Motivação Aumento da capacidade de processamento e de armazenamento de dados; Baixo custo; Grande quantidade de dados

Leia mais

WEKA: Prática Carregando a base de dados no Weka

WEKA: Prática Carregando a base de dados no Weka WEKA: Prática 2 1. Introdução O objetivo desta prática é utilizar a ferramenta Weka para comparar dois algoritmos de aprendizagem de máquina em um problema de detecção de SPAM. Os algoritmos a serem comparados

Leia mais

Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta

Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta Professor: Eduardo R Hruschka Estagiário PAE: Luiz F S Coletta (luizfsc@icmcuspbr) Sumário Definição do projeto 1 Desenvolvimento de algoritmo de Aprendizado de Máquina (AM); 2 Pré-processamento dos dados;

Leia mais

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS 7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS Autor(es) LIDIA MARTINS DA SILVA Orientador(es) ANA ESTELA ANTUNES DA SILVA 1. Introdução

Leia mais

APLICAÇÃO DE ALGORITMO DE APRENDIZAGEM DE MÁQUINA NÃO-SUPERVISIONADO PARA CLASSIFICAÇÃO DE USUÁRIOS NA REDE SOCIAL ACADÊMICA SCIENTIA.

APLICAÇÃO DE ALGORITMO DE APRENDIZAGEM DE MÁQUINA NÃO-SUPERVISIONADO PARA CLASSIFICAÇÃO DE USUÁRIOS NA REDE SOCIAL ACADÊMICA SCIENTIA. APLICAÇÃO DE ALGORITMO DE APRENDIZAGEM DE MÁQUINA NÃO-SUPERVISIONADO PARA CLASSIFICAÇÃO DE USUÁRIOS NA REDE SOCIAL ACADÊMICA SCIENTIA.NET Heloína Alves Arnaldo (bolsista do PIBIC/UFPI), Vinicius Ponte

Leia mais

Passos para o Aprendizado de Máquina com Pentaho. Prof. Marcos Vinicius Fidelis UTFPR/UEPG

Passos para o Aprendizado de Máquina com Pentaho. Prof. Marcos Vinicius Fidelis UTFPR/UEPG Passos para o Aprendizado de Máquina com Pentaho Prof. Marcos Vinicius Fidelis UTFPR/UEPG Apresentação Professor da UTFPR, leciona Sistemas de Apoio a Decisão e Tópicos Avançados em BD (WEKA, Pentaho e

Leia mais

Classificação Automática de Gêneros Musicais

Classificação Automática de Gêneros Musicais Introdução Método Experimentos Conclusões Utilizando Métodos de Bagging e Boosting Carlos N. Silla Jr. Celso Kaestner Alessandro Koerich Pontifícia Universidade Católica do Paraná Programa de Pós-Graduação

Leia mais

Figura 1: Metodologia de Reconhecimentos de Padrões desenvolvida na UFC

Figura 1: Metodologia de Reconhecimentos de Padrões desenvolvida na UFC Uma Solução para o GISSA: Análise Comparativa entre Algoritmos de Aprendizagem de Máquina Aplicados em um Dataset Relacionado ao Óbito Infantil Joyce Quintino Alves (1) ; Cristiano Lima da Silva (2); Antônio

Leia mais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto O processo de descoberta do conhecimento - KDD Roteiro Introdução Definição Etapas Desafios

Leia mais

Métodos para Classificação: - Naïve Bayes.

Métodos para Classificação: - Naïve Bayes. Métodos para Classificação: - 1R; - Naïve Bayes. Visão Geral: Simplicidade em primeiro lugar: 1R; Naïve Bayes. 2 Classificação: Tarefa: Dado um conjunto de exemplos préclassificados, construir um modelo

Leia mais

CC-226 Introdução à Análise de Padrões

CC-226 Introdução à Análise de Padrões CC-226 Introdução à Análise de Padrões Apresentação do Curso Carlos Henrique Q. Forster 1 1 Divisão de Ciência da Computação Instituto Tecnológico de Aeronáutica 25 de fevereiro de 2008 C. H. Q. Forster

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Aula #8.1 EBS 564 IA Prof. Luiz Fernando S. Coletta luizfsc@tupa.unesp.br Campus de Tupã Conhecimento: abstração (modelo) das relações existentes entre as informações contidas nos

Leia mais

Utilização de Algoritmos Simbólicos para a Identificação do Número de Caroços do Fruto Pequi

Utilização de Algoritmos Simbólicos para a Identificação do Número de Caroços do Fruto Pequi Utilização de Algoritmos Simbólicos para a Identificação do Número de Caroços do Fruto Pequi Fernando Luiz de Oliveira 1, Thereza Patrícia. P. Padilha 1, Conceição Aparecida Previero 2, Ana Cássia G. de

Leia mais

Descoberta de Conhecimento em Bancos de Dados - KDD

Descoberta de Conhecimento em Bancos de Dados - KDD Descoberta de Conhecimento em Bancos de Dados - KDD Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Fases do processo 3. Exemplo do DMC 4. Avaliação

Leia mais

Solução em AntiSpam em Nuvem. Filtre mais de 99,98% dos s indesejados!

Solução em AntiSpam em Nuvem. Filtre mais de 99,98% dos  s indesejados! BluePex Security Mail - ANTISPAM Especificações Técnicas Mínimas Solução para antispam Fabricante A BluePex, empresa brasileira de controle e segurança da informação é a fabricante da solução em Antispam.

Leia mais

SBC - Sistemas Baseados em Conhecimento

SBC - Sistemas Baseados em Conhecimento Siglas, Símbolos, Abreviaturas DW - Data Warehouse KDD Knowledge Discovery in Database MD Mineração de Dados OLAP - On-line analytical processing SBC - Sistemas Baseados em Conhecimento 1. INTRODUÇÃO O

Leia mais

Alternativas para construção de classificadores de solos brasileiros

Alternativas para construção de classificadores de solos brasileiros 48 Resumos Expandidos: XII Mostra de Estagiários e Bolsistas... Alternativas para construção de classificadores de solos brasileiros Matheus Agostini Ferraciolli¹ Luiz Manoel Silva Cunha² Resumo: Este

Leia mais

Aprendizado de Máquina. Combinando Classificadores

Aprendizado de Máquina. Combinando Classificadores Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Aprendizado de Máquina Combinando Classificadores David Menotti, Ph.D. web.inf.ufpr.br/menotti Introdução O uso de vários classificadores

Leia mais

Universidade Federal do Paraná

Universidade Federal do Paraná Universidade Federal do Paraná Mineração de Dados e Aprendizado de Máquinas. Aurora Trinidad Ramírez Pozo Roteiro Overview a Descoberta de Conhecimento em Bases de Dados Descoberta de Conhecimento em Bancos

Leia mais

SCC0173 Mineração de Dados Biológicos

SCC0173 Mineração de Dados Biológicos SCC0173 Mineração de Dados Biológicos Classificação I: Algoritmos 1Rule e KNN Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões dos originais:

Leia mais

INTELIGÊNCIA ARTIFICIAL

INTELIGÊNCIA ARTIFICIAL INTELIGÊNCIA ARTIFICIAL Engenharia da Computação Professor: Rosalvo Ferreira de Oliveira Neto Dados pessoais Rosalvo Ferreira de Oliveira Neto Dr. em ciência da computação (UFPE) rosalvo.oliveira@univasf.edu.br

Leia mais

KDD, Mineração de Dados e Algoritmo Apriori

KDD, Mineração de Dados e Algoritmo Apriori Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC KDD, Mineração de Dados e Algoritmo Apriori Aluno: Rodrigo Moura J.

Leia mais

Oi, Ficou curioso? Então conheça nosso universo.

Oi, Ficou curioso? Então conheça nosso universo. Oi, Somos do curso de Sistemas de Informação da Universidade Franciscana, e esse ebook é um produto exclusivo criado pra você. Nele, você pode ter um gostinho de como é uma das primeiras aulas do seu futuro

Leia mais

Aprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR

Aprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR Aprendizagem de Máquina - 2 Prof. Júlio Cesar Nievola PPGIa - PUCPR Inteligência versus Aprendizado Aprendizado é a chave da superioridade da Inteligência Humana Para que uma máquina tenha Comportamento

Leia mais

Classificação: 1R e Naïve Bayes. Eduardo Raul Hruschka

Classificação: 1R e Naïve Bayes. Eduardo Raul Hruschka Classificação: 1R e Naïve Bayes Eduardo Raul Hruschka Agenda: Conceitos de Classificação Técnicas de Classificação One Rule (1R) Naive Bayes (com seleção de atributos) Super-ajuste e validação cruzada

Leia mais

Mineração de Dados Aplicada no Contexto Educacional

Mineração de Dados Aplicada no Contexto Educacional Giana da Silva Bernardino ¹ e Alexandre Leopoldo Gonçalves Universidade Federal de Santa Catarina ¹gianagsb@gmail.com RESUMO Este trabalho faz uso da mineração de dados com o objetivo de encontrar informações

Leia mais

Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães.

Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães. Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães. O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise de dados e algoritmos

Leia mais

KDD E MINERAÇÃO DE DADOS

KDD E MINERAÇÃO DE DADOS KDD E MINERAÇÃO DE DADOS O Processo de KDD: Visão Geral Prof. Ronaldo R. Goldschmidt ronaldo@de9.ime.eb.br rribeiro@univercidade.br geocities.yahoo.com.br/ronaldo_goldschmidt CARACTERIZAÇÃO ÁREAS DE ORIGEM

Leia mais

SQLLOMining: Obtenção de Objetos de Aprendizagem utilizando técnicas de Aprendizado de Máquina

SQLLOMining: Obtenção de Objetos de Aprendizagem utilizando técnicas de Aprendizado de Máquina Susana Rosich Soares Velloso SQLLOMining: Obtenção de Objetos de Aprendizagem utilizando técnicas de Aprendizado de Máquina Dissertação de Mestrado Dissertação apresentada como requisito parcial para obtenção

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Horários Aulas Sala 3 CCET [quinta-feira, 8:20 12:00] Atendimento

Leia mais

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI Fernando Luiz de Oliveira 1 Thereza Patrícia. P. Padilha 1 Conceição A. Previero 2 Leandro Maciel Almeida 1 RESUMO O processo

Leia mais

ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS

ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS Fábio Abrantes Diniz 1, Fabiano Rosemberg de Moura Silva 2, Roberto Douglas da Costa 3, Thiago

Leia mais

TCE Informática Pré-Processamento de Dados Prof. Marcelo Ribeiro

TCE Informática Pré-Processamento de Dados Prof. Marcelo Ribeiro TCE Informática Pré-Processamento de Dados Prof. Marcelo Ribeiro www.acasadoconcurseiro.com.br Informática PRÉ-PROCESSAMENTO DE DADOS EM DATA MINING Técnicas de pré-processamento e transformação de dados

Leia mais

Análise de Risco de Crédito Bancário

Análise de Risco de Crédito Bancário UNIVERSIDADE FEDERAL DE CAMPINA GRANDE UFCG Curso de Mestrado em Informática Aluno: Francisco Fabian de Macedo Almeida Disciplina: Mineração de Dados Professor: Marcos Sampaio Data: 20 de dezembro de 2007

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Avaliação de Paradigmas Alessandro L. Koerich Mestrado/Doutorado em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Mestrado/Doutorado em Informática Aprendizagem

Leia mais

Fatores relacionados aos concluintes do curso de Licenciatura em Matemática - uma análise dos resultados do Enade

Fatores relacionados aos concluintes do curso de Licenciatura em Matemática - uma análise dos resultados do Enade Trabalho apresentado no XXXVII CNMAC, S.J. dos Campos - SP, 2017. Proceeding Series of the Brazilian Society of Computational and Applied Mathematics Fatores relacionados aos concluintes do curso de Licenciatura

Leia mais

Aplicação de Regras de Associação para Mineração de Dados em uma Empresa do Setor Varejista Visando Auxiliar na Gestão de Vendas

Aplicação de Regras de Associação para Mineração de Dados em uma Empresa do Setor Varejista Visando Auxiliar na Gestão de Vendas Aplicação de Regras de Associação para Mineração de Dados em uma Empresa do Setor Varejista Visando Auxiliar na Gestão de Vendas Mateus Luiz Gamba 1, Giana da Silva Bernardino 2 1 Universidade Federal

Leia mais

Extração de Conhecimento & Mineração de Dados

Extração de Conhecimento & Mineração de Dados Extração de Conhecimento & Mineração de Dados Nesta apresentação é dada uma breve introdução à Extração de Conhecimento e Mineração de Dados José Augusto Baranauskas Departamento de Física e Matemática

Leia mais

Classificadores Bayesianos

Classificadores Bayesianos Escola Politécnica da Universidade de São Paulo Departamento de Engenharia de Computação e Sistemas Digitais - PCS PCS5708 Técnicas de Raciocínio Probabilístico em Inteligência Artificial Classificadores

Leia mais

PROCESSO DE MINERAÇÃO DE DADOS NA DEFINIÇÃO DE ARQUITETURAS DE SATÉLITES PARA MISSÕES ESPACIAIS

PROCESSO DE MINERAÇÃO DE DADOS NA DEFINIÇÃO DE ARQUITETURAS DE SATÉLITES PARA MISSÕES ESPACIAIS sid.inpe.br/mtc-m19/2010/10.05.14.22-rpq PROCESSO DE MINERAÇÃO DE DADOS NA DEFINIÇÃO DE ARQUITETURAS DE SATÉLITES PARA MISSÕES ESPACIAIS Wanderson Gomes de Almeida Relatório final da disciplina Princípios

Leia mais

PREDIÇÃO À EVASÃO ESCOLAR: Estudo de caso aplicado no IFSULDEMINAS Campus Passos RESUMO

PREDIÇÃO À EVASÃO ESCOLAR: Estudo de caso aplicado no IFSULDEMINAS Campus Passos RESUMO PREDIÇÃO À EVASÃO ESCOLAR: Estudo de caso aplicado no IFSULDEMINAS Campus Passos Carla Fernandes da SILVA 1 ; Clayton Silva MENDES 2. RESUMO A evasão escolar é um dos principais desafios a ser superado

Leia mais

Metodologias para a Seleção de Atributos Relevantes

Metodologias para a Seleção de Atributos Relevantes Metodologias para a Seleção de Atributos Relevantes José Augusto Baranauskas e Maria Carolina Monard Departamento de Computação e Estatística Instituto de Ciências Matemáticas e de Computação - Universidade

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Introdução ao WEKA Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://web.inf.ufpr.br/luizoliveira Luiz S. Oliveira (UFPR) Aprendizado de

Leia mais

MINERAÇÃO DE DADOS EM ARQUIVOS DE LOG GERADOS POR SERVIDORES DE PÁGINAS WEB

MINERAÇÃO DE DADOS EM ARQUIVOS DE LOG GERADOS POR SERVIDORES DE PÁGINAS WEB MINERAÇÃO DE DADOS EM ARQUIVOS DE LOG GERADOS POR SERVIDORES DE PÁGINAS WEB Acadêmico: Leonardo José Correia Orientador: Prof. Ricardo Alencar Azambuja Blumenau, Julho/2004 1 Roteiro Introdução Objetivo

Leia mais

Processo de Descoberta de Conhecimento aplicado ao SIGAA UFPI

Processo de Descoberta de Conhecimento aplicado ao SIGAA UFPI Processo de Descoberta de Conhecimento aplicado ao SIGAA UFPI Francisco N. C. de Araújo 1, Vinicius P. Machado 1 1 Departamento de Ciência da Computação Universidade Federal do Piauí (UFPI) Teresina, PI

Leia mais

¹Faculdade de Tecnologia de Indaituba FATEC-ID, Rua D.Pedro I, 65, Cidade Nova, Indaiatuba, SP

¹Faculdade de Tecnologia de Indaituba FATEC-ID, Rua D.Pedro I, 65, Cidade Nova, Indaiatuba, SP Aplicação de Técnicas de Mineração de Dados para Caracterização de Grupos de Cidades Produtoras de Cana-De- Acúcar do Estado de São Paulo e Definição de Políticas Especificas Maria das Graças J.M. Tomazela

Leia mais

IMPLEMENTAÇÃO DE CLASSIFICAÇÃO BAYESIANA

IMPLEMENTAÇÃO DE CLASSIFICAÇÃO BAYESIANA IMPLEMENTAÇÃO DE CLASSIFICAÇÃO BAYESIANA Gabriela Silva de Oliveira¹, Silvio do Lago Pereira² ¹Aluna do Curso de Análise e Desenvolvimento de Sistemas DTI/FATEC-SP ²Prof. Dr. do Departamento de Tecnologia

Leia mais

Utilização de técnicas de Mineração de Dados para diagnóstico de rendimento dos alunos do ensino básico do município de Indaiatuba

Utilização de técnicas de Mineração de Dados para diagnóstico de rendimento dos alunos do ensino básico do município de Indaiatuba Utilização de técnicas de Mineração de Dados para diagnóstico de rendimento dos alunos do ensino básico do município de Indaiatuba Thaís Barros Nascimento 1, Maria das Graças J. M. Tomazela 1 1 Faculdade

Leia mais

Mineração de Dados. Eduardo Raul Hruschka. Baseado no curso de Gregory Piatetsky-Shapiro, disponível no sítio

Mineração de Dados. Eduardo Raul Hruschka. Baseado no curso de Gregory Piatetsky-Shapiro, disponível no sítio Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível no sítio http://www.kdnuggets.com Visão Geral: Introdução: motivação, aplicações, conceitos básicos. Agrupamento

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 09 Árvores de Decisão Max Pereira Classificação É a tarefa de organizar objetos em uma entre diversas categorias pré-definidas. Exemplos

Leia mais

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017 Inteligência de Negócios Fatec Indaiatuba Prof. Piva Compreender as definições e conceitos básicos da Mineração de Dados (MD) Entender o processo KDD (Knowledge Discovery Data) e MD Descrever as etapas

Leia mais

Seleção de Atributos 1

Seleção de Atributos 1 Seleção de Atributos 1 Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Seleção de atributos antes do aprendizado Benefícios Abordagens automáticas

Leia mais

MCZA Processamento de Linguagem Natural Classificação de textos

MCZA Processamento de Linguagem Natural Classificação de textos MCZA017-13 Processamento de Linguagem Natural Classificação de textos Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1 Bibliografia Daniel Jurafsky & James H. Martin. Speech and language processing:

Leia mais

BCC390 - Monografia I

BCC390 - Monografia I BCC390 - Monografia I DESENVOLVIMENTO DE UM REPOSITÓRIO DE DADOS DO FUTEBOL BRASILEIRO Rafael Belini Souza November 9, 2012 Tópicos 1 Introdução 2 Justificativa 3 Objetivo 4 Fontes 5 Pré-processamento

Leia mais

Mineração da Base de Dados de um Processo Seletivo Universitário

Mineração da Base de Dados de um Processo Seletivo Universitário Mineração da Base de Dados de um Processo Seletivo Universitário ARACELE GARCIA DE OLIVEIRA DENISE FERREIRA GARCIA UNIFOR/MG Centro Universitário de Formiga ICSAE - Instituto de Ciências Sociais Aplicadas

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 01 Motivação, áreas de aplicação e fundamentos Max Pereira Nem todo conhecimento tem o mesmo valor. O que torna determinado conhecimento mais importante que

Leia mais

Uma ferramenta de mineração de imagens para suporte ao cálculo de idade gestacional de recém-nascidos

Uma ferramenta de mineração de imagens para suporte ao cálculo de idade gestacional de recém-nascidos Uma ferramenta de mineração de imagens para suporte ao cálculo de idade gestacional de recém-nascidos * Bellon, Olga R. P.; Silva, Luciano; Cat, Mônica; Vieira, Everton V.; Araújo, Anderson V. Departamento

Leia mais

Boas Maneiras em Aprendizado de Máquinas

Boas Maneiras em Aprendizado de Máquinas Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Boas Maneiras em Aprendizado de Máquinas David Menotti www.inf.ufpr.br/menotti/ci171-182 Boas Maneiras Agenda Introdução Métricas

Leia mais

Estudo e Avaliação da Seleção de Atributos para Pré-processamento no Processo de Mineração de Dados

Estudo e Avaliação da Seleção de Atributos para Pré-processamento no Processo de Mineração de Dados Estudo e Avaliação da Seleção de Atributos para Pré-processamento no Processo de Mineração de Dados Silvani Weber da Silva Borges 1 (PIBIC/CNPq/Unioeste), Renato B. Machado (Orientador), Newton Spolaôr

Leia mais

UNIVERSIDADE FEDERAL DE UBERLÂNDIA - UFU

UNIVERSIDADE FEDERAL DE UBERLÂNDIA - UFU UNIVERSIDADE FEDERAL DE UBERLÂNDIA - UFU PLANO DE TRABALHO EM INICIAÇÃO CIENTÍFICA Desenvolvimento de toolbox de análise multivariada para o matlab. Uberlândia 28/09/10 IDENTIFICAÇÃO DO TRABALHO Título

Leia mais

Descoberta de Conhecimento em Bancos de Dados - KDD. NeuroTech Ltda.

Descoberta de Conhecimento em Bancos de Dados - KDD. NeuroTech Ltda. Descoberta de Conhecimento em Bancos de Dados - KDD NeuroTech Ltda. www.neurotech.com.br Descoberta de Conhecimento em Bancos de Dados (KDD) A descoberta de conhecimento em bancos de dados (Knowledge Discovery

Leia mais

2 Mineração de Dados Processo de Busca de Conhecimento (KDD) 2 Mineração de Dados

2 Mineração de Dados Processo de Busca de Conhecimento (KDD) 2 Mineração de Dados 2 Mineração de Dados 2 Mineração de Dados A mineração de dados, ou data mining, é uma das principais etapas do processo de busca de conhecimento. Este conceito é utilizado para identificar técnicas avançadas

Leia mais

Maria de Fátima Ramos Brandão 1, Carlos Renato dos Santos Ramos 1, Bartholomeu T. Tróccoli 2

Maria de Fátima Ramos Brandão 1, Carlos Renato dos Santos Ramos 1, Bartholomeu T. Tróccoli 2 Análise de agrupamento de escolas e Núcleos de Tecnologia Educacional: mineração na base de dados de avaliação do Programa Nacional de Informática na Educação Maria de Fátima Ramos Brandão 1, Carlos Renato

Leia mais

Um Método para Melhoria de Dados Estruturados de Imóveis

Um Método para Melhoria de Dados Estruturados de Imóveis Universidade Federal de Pernambuco Centro de Informática Graduação em Ciência da Computação Um Método para Melhoria de Dados Estruturados de Imóveis Lucas Nunes de Souza Proposta de Trabalho de Graduação

Leia mais

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Pollyanna Carolina BARBOSA¹; Thiago MAGELA² 1Aluna do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas

Leia mais

Data Mining. Felipe E. Barletta Mendes. 21 de maio de 2008

Data Mining. Felipe E. Barletta Mendes. 21 de maio de 2008 21 de maio de 2008 O foco principal deste material não é apresentar em minúcia todo o contexto de, muito menos o sobre o processo KDD em que a mineração de dados usualmente está inserida. O objetivo é

Leia mais

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING Aluno José Lino Uber Orientador Paulo Roberto Dias Dezembro/2004 Roteiro Introdução Objetivo Conceitos Motivação / Tipos

Leia mais

Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino

Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino Ricardo Cezar Bonfim Rodrigues 24 de abril de 2006 1 Antecedentes e Justificativa Hoje, em diversos processos industriais,

Leia mais

Aprendizado de Máquinas

Aprendizado de Máquinas Aprendizado de Máquinas Objetivo A área de aprendizado de máquina preocupa-se em construir programas que automaticamente melhorem seu desempenho com a experiência. Conceito AM estuda métodos computacionais

Leia mais

Identificação de alertas de segurança virtual veiculados no Twitter

Identificação de alertas de segurança virtual veiculados no Twitter Identificação de alertas de segurança virtual veiculados no Twitter Orientador: Daniel M. Batista Coorientadora: Elisabeti Kira Instituto de Matemática e Estatística IME-USP 27 de Janeiro de 2015 Introdução

Leia mais

Mineração de textos na resolução de ambiguidades lexicais da Língua Portuguesa

Mineração de textos na resolução de ambiguidades lexicais da Língua Portuguesa https://periodicos.utfpr.edu.br/recit Mineração de textos na resolução de ambiguidades lexicais da Língua Portuguesa RESUMO Luiz Guilherme Fonseca Rosa luizguilhermefr@gmail.com Universidade Estadual do

Leia mais

Mineração de Dados - II

Mineração de Dados - II Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II Mineração de Dados - II Sylvio Barbon Junior barbon@uel.br 10 de julho de 2015 DC-UEL Sylvio Barbon Jr 1 Sumário Etapa II Algoritmos Básicos Weka: Framework

Leia mais

Aplicação da técnica de mineração de dados por meio do algoritmo J48 para definição de limiares de imagens de sensoriamento remoto

Aplicação da técnica de mineração de dados por meio do algoritmo J48 para definição de limiares de imagens de sensoriamento remoto Aplicação da técnica de mineração de dados por meio do algoritmo J48 para definição de limiares de imagens de sensoriamento remoto Rodrigo Rodrigues Antunes e Israel Rodrigues Gonçalves Resumo: O objetivo

Leia mais

2 Sentiment Analysis 2.1

2 Sentiment Analysis 2.1 2 Sentiment Analysis 2.1 Definição do Problema Sentiment Analysis é um problema de categorização de texto no qual deseja-se detectar opiniões favoráveis e desfavoráveis com relação a um determinado tópico

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Plano da Apresentação Aprendizagem de Máquina Alessandro L. Koerich 2007 Mestrado e Doutorado em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Professor & Experiência Acadêmica Horários

Leia mais

Máquinas de suporte vetorial e sua aplicação na detecção de spam

Máquinas de suporte vetorial e sua aplicação na detecção de spam e sua aplicação na detecção de spam Orientador: Paulo J. S. Silva (IME-USP) Universidade de São Paulo Instituto de Matemática e Estatística Departamento de Ciência da Computação MAC499 Trabalho de Formatura

Leia mais

MESTRADO EM INFORMÁTICA MÉDICA UNIDADE CURRICULAR DE SISTEMAS DE ESTUDO COMPARATIVO O DE 2009

MESTRADO EM INFORMÁTICA MÉDICA UNIDADE CURRICULAR DE SISTEMAS DE ESTUDO COMPARATIVO O DE 2009 FACULDADE DE MEDICINA DA UNIVERSIDADEE DO PORTOO M MESTRADO EM INFORMÁTICA MÉDICA UNIDADE CURRICULAR DE SISTEMAS DE APOIO À DECISÃO CLÍNICA ESTUDO COMPARATIVO DE TRÊS ALGORITMOS DE MACHINE LEARNING NA

Leia mais

Análise do Desempenho Acadêmico Utilizando Redes Bayesianas: um estudo de caso

Análise do Desempenho Acadêmico Utilizando Redes Bayesianas: um estudo de caso Análise do Desempenho Acadêmico Utilizando Redes Bayesianas: um estudo de caso Danilo Raniery Alves Coutinho, Thereza Padilha Departamento de Ciências Exatas - Universidade Federal da Paraíba (UFPB) Campus

Leia mais

Classificação. Eduardo Raul Hruschka

Classificação. Eduardo Raul Hruschka Classificação Eduardo Raul Hruschka Agenda: Conceitos de Classificação Técnicas de Classificação One Rule (1R) Naive Bayes (com seleção de atributos) Super-ajuste e validação cruzada Combinação de Modelos

Leia mais

TÍTULO: WSDM - WEB SERVICE PARA MINERAÇÃO DE DADOS CATEGORIA: CONCLUÍDO ÁREA: CIÊNCIAS EXATAS E DA TERRA SUBÁREA: COMPUTAÇÃO E INFORMÁTICA

TÍTULO: WSDM - WEB SERVICE PARA MINERAÇÃO DE DADOS CATEGORIA: CONCLUÍDO ÁREA: CIÊNCIAS EXATAS E DA TERRA SUBÁREA: COMPUTAÇÃO E INFORMÁTICA TÍTULO: WSDM - WEB SERVICE PARA MINERAÇÃO DE DADOS CATEGORIA: CONCLUÍDO ÁREA: CIÊNCIAS EXATAS E DA TERRA SUBÁREA: COMPUTAÇÃO E INFORMÁTICA INSTITUIÇÃO: FACULDADE DE TECNOLOGIA PROFESSOR ANTÔNIO SEABRA

Leia mais

Descoberta de Conhecimento com Aprendizado de Máquina Supervisionado em Dados Abertos dos Censos da Educação Básica e Superior

Descoberta de Conhecimento com Aprendizado de Máquina Supervisionado em Dados Abertos dos Censos da Educação Básica e Superior Descoberta de Conhecimento com Aprendizado de Máquina Supervisionado em Dados Abertos dos Censos da Educação Básica e Superior Jonathan H. A. de Carvalho¹, Lisandra S. da Cruz¹, Roberta M. M. Gouveia¹

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Apresentação da Disciplina Alessandro L. Koerich 2008 Mestrado e Doutorado em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Mestrado/Doutorado em Informática Aprendizagem

Leia mais

UM MODELO ORIENTADO A OBJETOS PARA MINERAÇÃO DE DADOS NA AGRICULTURA 1 RESUMO AN OBJECT-ORIENTED MODEL FOR DATA MINING IN AGRICULTURE ABSTRACT

UM MODELO ORIENTADO A OBJETOS PARA MINERAÇÃO DE DADOS NA AGRICULTURA 1 RESUMO AN OBJECT-ORIENTED MODEL FOR DATA MINING IN AGRICULTURE ABSTRACT UM MODELO ORIENTADO A OBJETOS PARA MINERAÇÃO DE DADOS NA AGRICULTURA 1 RESUMO ALAINE MARGARETE GUIMARÃES 2 PETRAQ PAPAJORGJI 3 LEILA MARIA VRIESMANN 4 Este artigo descreve um sistema orientado a objetos

Leia mais

Mineração de Dados - Contextualização. Fonte: Prof. Fabrício J. Barth -

Mineração de Dados - Contextualização. Fonte: Prof. Fabrício J. Barth - Mineração de Dados - Contextualização Fonte: Prof. Fabrício J. Barth - http://fbarth.net.br/ Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento; Manter, disseminar, organizar,

Leia mais

Análise Automática de Coerência Textual em Resumos Científicos: Avaliando Quebras de Linearidade

Análise Automática de Coerência Textual em Resumos Científicos: Avaliando Quebras de Linearidade Proceedings of Symposium in Information and Human Language Technology. Natal, RN, Brazil, November 4 7, 2015. c 2015 Sociedade Brasileira de Computação. Análise Automática de Coerência Textual em Resumos

Leia mais

Trabalho 2 - Detalhamento

Trabalho 2 - Detalhamento Trabalho 2 - Detalhamento Clodoaldo A. M. Lima, Sarajane M. Peres 7 de outubro de 2015 Programa de Pós-Graduação em Sistemas de Informação Mestrado acadêmico - EACH - USP http://ppgsi.each.usp.br Clodoaldo

Leia mais

Técnicas de Mineração de Dados aplicado na Universidade Federal Rural do Semi Árido (UFERSA) Campus Angicos 1*

Técnicas de Mineração de Dados aplicado na Universidade Federal Rural do Semi Árido (UFERSA) Campus Angicos 1* Técnicas de Mineração de Dados aplicado na Universidade Federal Rural do Semi Árido (UFERSA) Campus Angicos 1* Julio Cartier Maia Gomes 1, Paulo Henrique de Morais 1, Cynthia Moreira Maia¹, Walter Martins

Leia mais

Data Analytics Prevenção e deteção de Fraude

Data Analytics Prevenção e deteção de Fraude www.pwc.pt Data Analytics Prevenção e deteção de Fraude 21 Agenda Auditoria Interna e Fraude Agenda Introdução à Fraude Papel da Auditoria Interna Cases Studies Data Analytics Exemplos Reconhecer 3 Conceito

Leia mais

Ambiente Weka Waikato Environment for Knowledge Analysis

Ambiente Weka Waikato Environment for Knowledge Analysis Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC Ambiente Weka Waikato Environment for Knowledge Analysis Classificação

Leia mais

Utilização do Corte Percentual na categorização de documentos da Web com o algoritmo Naive Bayes

Utilização do Corte Percentual na categorização de documentos da Web com o algoritmo Naive Bayes Utilização do Corte Percentual na categorização de documentos da Web com o algoritmo Naive Bayes José Alberto Sousa Torres/ Grinaldo Oliveira /Cláudio Alves Amorim * Em um momento em que é crescente a

Leia mais

Christopher Bishop, Pattern Recognition and Machine Learning, Springer, 2006 capítulo 14

Christopher Bishop, Pattern Recognition and Machine Learning, Springer, 2006 capítulo 14 Combinação de modelos Christopher Bishop, Pattern Recognition and Machine Learning, Springer, 2006 capítulo 4 Motivação Habitualmente, experimenta-se vários algoritmos (ou o mesmo com diferentes hiperparâmetros)

Leia mais

Informática. Conceitos Gerais. Professor Márcio Hunecke.

Informática.   Conceitos Gerais. Professor Márcio Hunecke. Informática E-mail: Conceitos Gerais Professor Márcio Hunecke www.acasadoconcurseiro.com.br Informática E-MAIL: CONCEITOS GERAIS O correio eletrônico tornou-se popular devido a sua grande facilidade em

Leia mais