Apresentação tecnologia da informação sistemas de informação capacidade de coletar automatizem controlem processos operações. quantidade qualidade

Tamanho: px
Começar a partir da página:

Download "Apresentação tecnologia da informação sistemas de informação capacidade de coletar automatizem controlem processos operações. quantidade qualidade"

Transcrição

1 Ciência dos Dados

2 Apresentação

3 Apresentação O avanço da infraestrutura em tecnologia da informação e a disseminação dos sistemas de informação melhoraram a capacidade de coletar dados e dessa forma podem contribuir para que as organizações automatizem e controlem os seus processos e as suas operações. Automatizar e controlar processos e operações garantem a quantidade e a qualidade de dados que atendem às necessidades de informação das organizações e, nesse sentido, atingem o objetivo principal da tecnologia da informação: informar. 3

4 Apresentação Ao mesmo tempo, as empresas passam a recolher dados de seus clientes, gerados quando esses clientes navegam na internet, quando eles colocam posts nas redes sociais e nos blogs e de eventos externos, tais como tendências de mercado, notícias do setor e movimento dos concorrentes. Os dados (dos sistemas transacionais e de outras fontes internas e externas) são insumos para as necessidades gerenciais de informação (e conhecimento) que dão apoio aos processos de gestão e decisão das organizações. Isto é: os dados são ativos de informação e conhecimento. 4

5 Apresentação Por outro lado, os analistas de negócios têm perguntas às quais gostariam de responder, como, por exemplo: Qual foi o retorno de uma campanha publicitária? Que clientes devem ter uma atenção especial, uma vez que podem deixar de utilizar os nossos serviços? É um determinado cliente confiável a se qualificar para um empréstimo ou uma venda a prazo? Como saber se uma transação do cartão de crédito é fraudulenta? Nem sempre é fácil obter respostas para essas perguntas. 5

6 Apresentação Equipe técnica que desenvolve e oferece suporte ao BI Analistas de negócio 6

7 Apresentação Em tais situações, podemos recorrer aos dados, que podem esconder informações valiosas para auxiliar no processo decisório. As empresas podem coletar dados internos e externos com essa finalidade. Por exemplo, se sabemos que os clientes deixaram de usar os nossos produtos no passado, podemos construir um modelo analítico (baseado nos dados) que descreve os padrões, o comportamento e as características desses clientes. 7

8 Apresentação Surgem as organizações orientadas a dados, que utilizam os dados como um bem estratégico, e as análises de dados, que atendem às necessidades gerenciais de informação (e conhecimento) e apoiam os processos de gestão e decisão das organizações. 8

9 Organizações orientadas a dados 9

10 Organizações orientadas a dados Resistente a dados: o mantra da empresa resistente a dados é: "Nós sempre fizemos isso dessa maneira. As organizações são resistentes a dados por uma variedade de razões: Os dados podem mostrar problemas de desempenho Os dados podem mostrar que a organização tem uma estratégia desalinhada Consciente de dados: a empresa neste estágio sabe a existência de dados dentro da organização e se concentra na coleta de dados, muitas vezes consciente do valor implícito e potencial dos dados. A coleta acontece como: análise de mídia social; sistemas ERP/CRM; planejamento financeiro e sistemas de contabilidade; A transição para o próximo estágio vem do desejo de desbloquear o valor dos dados que uma empresa tem. 10

11 Organizações orientadas a dados Guiado por dados: as empresas guiadas por dados se concentraram no tipo de análise: o que aconteceu, para então responder: Não vamos fazer isso novamente" e Vamos fazer mais disso". Usa os resultados de seus dados para olhar o passado. Com conhecimento de dados: a empresa neste estágio percebe que o valor dos dados não é apenas tático, mas um ativo estratégico. A empresa continua seu investimento no que, mas volta a atenção para o porquê: Por que as vendas diminuíram no último trimestre? Por que os consumidores compram menos do nosso produto? Por que a geração de leads cresceu na quarta semana do mês? 11

12 Organizações orientadas a dados A empresa orientada a dados combina dados, análises e insights para responder à questão: O que vem depois? Os dados são um ativo estratégico e impulsionam as decisões a serem tomadas, isto é, analisam o que aconteceu e o porquê de ter acontecido, para então formular decisões que posteriormente serão medidas pela coleta de novos dados. A Ciência dos Dados nos auxiliará a transformar uma organização resistente a dados em uma organização orientada a dados. 12

13 Ciência dos dados 13

14 Ciência dos Dados Ciência dos dados é: o processo de obtenção, transformação, análise e validação de dados para responder a uma pergunta (geralmente de negócio) que se traduz em ações (decisões) o conjunto de habilidades e técnicas necessárias para encontrar, armazenar, processar e desenhar insights baseados em dados a habilidade de combinar: as capacidades analíticas de um cientista ou engenheiro com a visão de negócios de um executivo empresarial, passando pelas habilidades de um desenvolvedor para extrair e processar dados 14

15 Ciência dos Dados Comparação com outras disciplinas analíticas A mineração de dados: esta disciplina trata da criação de algoritmos para extrair insights de dados. Possui alguma intersecção com a estatística e é um subconjunto da ciência dos dados. Aprendizado de máquina: disciplina da Ciência da Computação que parte da ciência dos dados. Está diretamente relacionada com a mineração de dados. A aprendizagem de máquina trata sobre a criação de algoritmos (como a mineração de dados) para resolver 15 problemas da Ciência da Computação.

16 Ciência dos Dados Podemos definir a relação entre o aprendizado de máquina e a mineração de dados da seguinte forma: A mineração de dados é um processo durante o qual os algoritmos de aprendizado de máquina são utilizados como ferramentas para extrair padrões potencialmente valiosos e onde a IA é a motivação (teórica e prática) para a criação de algoritmos. 16

17 Princípios Chaves 17

18 Princípios-chave Princípios-chave da Ciência dos Dados para uma organização orientada a dados: 1. Atentar para o fato de que dados são um ativo estratégico 2. Ter um processo sistemático de extração de informações e de conhecimento a partir dos dados 3. Ter pessoas que conectem dados, tecnologia e negócios 4. Incentivar a cultura analítica e de experimentação na organização 5. Incentivar a parte comercial da equação (Business-Analytics- Business - BAB) 18

19 Princípios-chave Atentar para o fato de que dados são um ativo estratégico: Este conceito tem de estar no dia a dia da organização. Perguntas para serem feitas: Usamos todo o recurso de dados que estamos coletando e armazenando? Somos capazes de extrair informações significativas deles? " A resposta é não para a maior parte das organizações. 19

20 Princípios-chave Ter um processo sistemático de extração de informações e de conhecimento a partir dos dados: Devemos ter um processo com etapas definidas que apresentem resultados claros para extrair insights de dados. O processo utilizado geralmente procede da mineração de dados. 20

21 Princípios-chave Ter pessoas que conectem dados, tecnologia e negócios: As organizações precisam investir em pessoas apaixonadas por dados, que entendam o valor dos dados e do negócio da organização, passando pela tecnologia. Transformar dados em percepções e insights não é alquimia, é um processo que precisa de dedicação, criatividade e inovação. 21

22 Princípios-chave Incentivar a cultura analítica e de experimentação da organização: Ciência de Dados é uma ferramenta de apoio ao processo de decisão que apresenta perspectivas e visões diferentes do problema, permitindo aos tomadores de decisão novos insights que certamente terão uma alta probabilidade de incertezas. A cultura analítica da organização é um passo essencial para a transformação em uma organização orientada a dados. Para avançar mais um nível, a empresa deve ter uma cultura de experimentação, isto é, construir, experimentar e medir insights baseados em dados para os problemas de negócios. 22

23 Princípios-chave Business Analytics - Business (BAB): O princípio BAB é o mais importante para o êxito de uma organização orientada a dados. O foco de muita literatura referente a Ciência dos Dados é em modelos e algoritmos, sem o contexto de negócios. Business-Analytics-Business (BAB) é o princípio que enfatiza a parte comercial da equação. Incluir o processo de Ciência dos Dados em um contexto de negócios é fundamental, isto é, definir o problema de negócio, usar dados e análises para resolvê-lo e incluir os resultados das análises na estratégia do negócio. 23

24 O processo 24

25 Princípios-chave: o processo As principais etapas do processo (princípio-chave 2) são: 1. Entendimento do negócio e definição do problema do negócio 2. Tarefas de aprendizagem de máquina 3. Coleta e pré-processamento de dados 4. Análise exploratória de dados 5. Modelos de análises (modelos analíticos) 6. Validação dos resultados obtidos com os modelos analíticos 25

26 Princípios-chave: o processo 26

27 Um exemplo: Princípios-chave: o processo 27

28 Princípios-chave: o processo Etapa 1: entendimento do negócio Consiste, além de se entender o assunto do negócio em questão, na definição do problema a ser tratado e nas possíveis hipóteses que podem dar indício às respostas esperadas do problema levantado. Nessa fase, o conhecimento, a experiência, o senso comum, a vivência e a criatividade humana dos analistas sobre o assunto de negócio são essenciais para a realização das perguntas necessárias e pertinentes, assim como para a formulação de hipóteses que forneçam sustentação às perguntas de negócio. 28

29 Princípios-chave: o processo Etapa 1: entendimento do negócio: As perguntas de negócio não emergem de forma isolada; são desenvolvidas em cima de um assunto existente e em informações contextuais conhecidas que se iniciam com uma necessidade de análise, a qual se traduz em objetivo analítico. Exemplo: uma empresa de telecomunicações viu um declínio na receita ano a ano devido a uma redução na base de clientes. Nesse cenário, o problema de negócios pode ser definido como: A empresa precisa fazer crescer a base de clientes visando novos segmentos e reduzindo a desistência de clientes. 29

30 Princípios-chave: o processo Etapa 2: descobrir tarefas de aprendizado de máquina: O problema de negócios, uma vez definido, precisa ser decomposto para tarefas de aprendizado de máquina. Vamos elaborar sobre o exemplo definido. Se a empresa precisa expandir a base de clientes visando a novos segmentos e reduzindo a desistência de clientes, como podemos decompor isso em problemas de aprendizado de máquinas? Por exemplo: Reduzir o abandono de cliente em X%. Identificar novos segmentos de clientes para marketing direcionado. 30

31 Princípios-chave: o processo Etapa 3: coleta e preparação de dados (pré-processamento) Agora precisamos mergulhar nos dados. Concentre-se no entendimento e na obtenção de dados de que você precisa. Isso significa preparar os dados para atender às suas necessidades analíticas. É importante entender os pontos fortes e as limitações dos dados, pois raramente há uma correspondência exata com o problema. Os dados históricos muitas vezes são recolhidos para finalidades não relacionadas com o problema de negócio atual. Temos dados disponíveis e confiáveis para responder ao objetivo analítico? A qualidade de suas entradas vai decidir a qualidade da saída. 31

32 Princípios-chave: o processo Etapa 3: coleta e preparação de dados (pré-processamento) As tecnologias analíticas impõem certos requisitos sobre os dados que usam. Exigem muitas vezes os dados numa forma diferente de como são fornecidos naturalmente, e alguma conversão é necessária. Isto é, os dados são manipulados e convertidos em formas que proporcionam melhores resultados. Exemplos: remover ou inferir nos valores em falta, converter dados de um formato para outro (numérico em categóricos, contínuos em discretos). Muitas vezes os dados devem ser normalizados ou dimensionados, de modo que eles sejam comparáveis. 32

33 Princípios-chave: o processo Etapa 3: coleta e preparação de dados (pré-processamento) Uma vez definido o problema e as hipótese de negócio, faz sentido gastar tempo e esforços na exploração, na limpeza e na preparação dos dados (70% do tempo total do projeto está no pré-processamento de dados). O primeiro passo da etapa de pré-processamento consiste na identificação das variáveis (seleção dos dados). O conhecimento sobre o domínio auxilia determinando os valores válidos, os atributos ou as informações para a construção de novos atributos. A seleção implica muitas vezes na extração de diferentes fontes de dados e na integração de tais dados com o objetivo de se obter uma única fonte de dados. Na extração e na integração, efetua-se a limpeza e a transformação dos dados. 33

34 Princípios-chave: o processo Etapa 4: análise exploratória de dados Neste passo, é utilizada a amostragem, que é a seleção de um subconjunto de dados para serem analisados. A estatística utiliza a amostragem porque obter os dados da população pode ser muito custoso e demandar muito tempo. Na Ciência dos Dados, a análise exploratória é utilizada para reduzir o tempo de processamento. O princípio-chave da amostragem é que ela seja representativa da população, isto é, que tenha a mesma propriedade de interesse da população. Por exemplo, se a propriedade de interesse for a média da população, a amostragem é representativa se a média da amostra for próxima à da população. 34

35 Princípios-chave: o processo Etapa 4: análise exploratória de dados Após a identificação das variáveis, o próximo passo é a compreensão dos dados. A exploração de dados fornece uma visão geral de alto nível de cada atributo no conjunto de dados e na interação entre os atributos. A exploração de dados ajuda a saber qual é o valor típico de um atributo, se existem outliers no conjunto de dados, se existem atributos altamente correlacionadas, entre outras medidas de análises que a exploração de dados nos fornece. 35

36 Princípios-chave: o processo Etapa 5: modelos analíticos Esta é a atividade na qual devemos identificar a técnica analítica que vai produzir os resultados esperados, o que nos leva às possíveis ações que podem ser tomadas para atingir o objetivo esperado. O conjunto de possíveis técnicas analíticas é grande, vasto e difícil de se compreender, os objetivos e as caraterísticas do problema apontam para as técnicas mais adequadas. 36

37 Princípios-chave: o processo Etapa 5: modelos analíticos O processo de construir um modelo para representar um conjunto de dados é comum para todos os modelos analíticos. O que não é comum é a maneira por meio da qual os modelos são construídos, utilizando diferentes alternativas. O objetivo da construção de modelos é organizar e resumir os dados para facilitar a interpretação e a descoberta de padrões, tendências e relações interessantes entre dados e fornecer subsídios para auxiliar nos processos de gestão e de decisão da organização. 37

38 Princípios-chave: o processo Etapa 6: validação do modelo e dos resultados O objetivo desta fase é avaliar os resultados dos modelos analíticos, isto é, devemos confiar que as relações e os padrões extraídos a partir dos dados são verdadeiros e generalizáveis (e não anomalias da amostra) para responder rigorosamente aos objetivos, confirmando ou rejeitando as hipóteses levantadas. Para avaliar as relações e os padrões extraídos, é utilizado um conjunto de dados (dados de teste) que não foram anteriormente empregados na construção do modelo (dados de treino). Dessa forma, teremos o que chamamos erro do modelo e saberemos se devemos voltar às etapas anteriores ou se os resultados obtidos são satisfatórios. 38

39 Modelos analíticos 39

40 Princípios-chave - O processo - Modelos analíticos O processo de se construir um modelo para representar um conjunto de dados é comum para todos os modelos analíticos. O que não é comum é a maneira pela qual os modelos são construídos, utilizando diferentes alternativas. O objetivo da construção de modelos é organizar e resumir os dados para facilitar a interpretação e a descoberta de padrões, tendências e relações interessantes entre dados e fornecer subsídios para auxiliar nos processos de gestão e de decisão da organização. 40

41 Princípios-chave - O processo - Modelos analíticos Segundo o objetivo definido, podemos dividir os modelos analíticos em: descritivos (relatórios) (o que aconteceu?) diagnósticos (descoberta e exploração) (por que isso aconteceu?) preditivos (previsão) (o que vai acontecer?) prescritivos (antecipação) (como podemos fazer para isso acontecer?) 41

42 Princípios-chave - O processo - Modelos analíticos Descritivo: O objetivo da análise descritiva é resumir e agregar dados históricos, visualizandoos de forma que permitam entender o estado atual e passado do negócio, isto é, fornece ao analista uma visão de métricas e medidas importantes ao negócio. Mais de 70% das análises de negócio são descritivas. Os dados são resumidos através de funções de análise (exemplo: funções agregadas dos bancos de dados, tais como contagem, somas, médias), fornecendo ao analista uma visão de métricas e de medidas importantes para o negócio. 42

43 Princípios-chave - O processo Modelos analíticos Descritivo: O resultado geralmente são painéis de controle e relatório. As técnicas OLAP e de exploração de dados se enquadram neste modelo. Por exemplo: Como os meus clientes ou as minha vendas estão distribuídos no que diz respeito à localização geográfica? Verificar a evolução mensal das unidades vendidas de um produto ou do número de clientes de um serviço Visualizar o número de post, seguidores e page views de uma rede social 43

44 Princípios-chave - O processo - Modelos analíticos Diagnóstico: É um olhar sobre o desempenho passado para determinar o que aconteceu e por quê. Na avaliação dos dados descritivos, as ferramentas analíticas de diagnóstico capacitarão um analista para detalhar e encontrar a causa do que aconteceu, identificando relações ou padrões entre os dados. Dashboards de negócios (isto é, painel analítico) que acompanham os dados no tempo com filtros e capacidade de detalhamento permitem essa análise. Por exemplo: em uma campanha de marketing em mídias sociais, as análises descritivas podem avaliar o número de postagens, menções, seguidores, fãs e exibições de página para ver o que funcionou e o que não funcionou em suas campanhas passadas. 44

45 Princípios-chave - O processo - Modelos analíticos Preditiva: Utiliza observações passadas para prever futuras observações (probabilisticamente), isto é, constrói uma análise dos cenários prováveis do que poderia acontecer. Os modelos preditivos podem ser usados para resumir os dados existentes, mais seu poder é que podemos usá-los para extrapolar um tempo futuro em que os dados ainda não existem. Essa extrapolação no domínio do tempo é conhecida como previsão. 45

46 Princípios-chave - O processo - Modelos analíticos Preditiva: Por exemplo: Prever quais os produtos que determinados grupos de clientes são mais propensos a comprar. Quais são as caraterísticas das transações fraudulentas no cartão de crédito. Que clientes devem ter uma atenção especial, uma vez que podem deixar de utilizar os nossos serviços. 46

47 Princípios-chave - O processo - Modelos analíticos Prescritiva: Esse tipo de análise não só prevê um possível futuro, prevê vários futuros com base nas ações que podem ser tomadas. Um modelo prescritivo é, por definição, também preditivo. Esse tipo de modelo é muito pouco utilizado (menos de 1% dos modelos é prescritivo). Construir um modelo prescritivo significa não apenas utilizar os dados existentes, mas também os dados de ação e de feedback para orientar o tomador de decisão a obter um resultado desejado. 47

48 Princípios-chave - O processo - Modelos analíticos Prescritiva: Um modelo prescritivo pode ser visto como uma combinação de vários modelos preditivos que funcionam em paralelo, um para cada possível ação de entrada. Uma vez que um modelo prescritivo é capaz de prever as possíveis consequências com base em diferentes escolhas de ação, ele também pode recomendar o melhor curso de ação. Por exemplo: Podemos saber que produtos vão maximizar a nossa receita? 48

49 Modelos analíticos: algoritmos de aprendizagem 49

50 Análises exploratória de dados 50

51 Análise Exploratória de Dados (AED) AED consiste em ORGANIZAR e RESUMIR os dados coletados por meio de tabelas, gráficos ou medidas numéricas (técnicas de estatística descritiva e de visualização) e, a partir dos dados resumidos, procurar identificar padrões, comportamentos, relações e dependências. O objetivo final é tornar mais clara a descrição dos dados a fim de ajudar o analista a desenvolver algumas hipóteses sobre o problema em questão e permitir a construção de modelos apropriados para tais dados, isto é auxiliar na INTERPRETAÇÃO dos dados. 51

52 Análise Exploratória de Dados (AED) A AED emprega técnicas de estatísticas descritivas e gráficas para explorar dados, detectando agrupamento, medidas de tendência central, de ordenação, de dispersão e de correlação entre variáveis. A AED é um pré-requisito para uma análise de dados mais formal e como parte da construção dos modelos analíticos. A estatística descritiva é um conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos por meio do uso de certas medidas-síntese que tornem possível a interpretação de resultados. 52

53 RapidMiner: Configure o repositório de dados e crie um novo processo 53

54 Executar processo Visões Processo Propriedades do Operador Operadores Help 54

55 Execução e do processo Exemplo 1 Item A 55

56 Clicando em uma variável apresenta os histograma Clicando sobre o gráfico, ampliamos o histograma 56

57 Não existem um número, específico de classes para um histograma, geralmente se utiliza raiz quadrada ou raiz cúbica do número de dados. 57

58 No tipo de gráfico para Quartile : podemos observar que o comprimento da pétala tem a mais ampla distribuição das 150 observações e largura pétala é geralmente a menor medida de todas as quatro variáveis. Na figura, a barra, representa os dados entre Q1 e Q3, a linha representa a mediana e o ponto a média. Os círculos fora do gráfico, são os outliers. 58

59 No tipo de gráfico para Quartile Color : Podemos ver a distribuição das três espécies para a medição do comprimento da pétala. Semelhante à comparação anterior, a distribuição de várias espécies podem ser comparadas. 59

60 A função de distribuição normal conta a probabilidade de ocorrência dos dados dentro de um intervalo. Se um conjunto de dados exibe distribuição normal, 68,2% de pontos de dados estão a um desvio padrão da média, 95,4% dos pontos caem dentro 2σ e 99,7% dentro de 3σ da média. A partir do gráfico de distribuição, podemos inferir o comprimento pétala, por exemplo Iris Setosa é mais coeso e diferente do que Iris Versicolor e Iris Virginica. 60

61 Trocando o tipo de gráfico para Scatter e configurando os eixos, podemos observar a dispersão entre os tipos de flores Iris. 61

62 Trocando o tipo de gráfico para Scatter 3D e configurando os eixos, podemos observar as diferenças entre os tipos de flores Iris. 62

63 No tipo de gráfico para Scatter matrix, podemos observar a dispersão de todas as variáveis 2 a 2. 63

64 Outra forma de visualizar as relações entre as variáveis e as diferenças para cada tipo de flor Iris. 64

65 Outra forma de visualizar as relações entre as variáveis (com até 4 dimensões, duas em cores). Visualizar: comprimento pétala no eixo X, comprimento da sépalas no eixo y, largura sépalas para a cor de fundo (densidade), e a classe para a cor dos dados. 65

66 Notamos que há uma sobreposição entre as três espécies do atributo de largura sepala. Assim, a largura sépalas não pode ser a métrica utilizada para diferenciar as três espécies. No entanto, existe uma clara separação das espécies de comprimento pétala. Nenhuma observação de espécies Setosa tem um comprimento pétala superior a 0,25 e há muito pouca sobreposição entre as espécies Virginica e Versicolor. 66

67 Exemplo 1 Item B 67

68 Métodos de Detecção de Anomalias (Outliers) Outliers são instancias de dados que se destacam entre outras instancias e não tem o comportamento esperado do conjunto de dados. Outliers podem ser identificados através da criação de um modelo de distribuição estatística normal dos dados, os pontos a mais de três desvios-padrão da média são identificados como um outliers. 68

69 Métodos de Detecção de Anomalias (Outliers) No espaço multidimensional cartesiano os pontos que estão distantes de outros pontos são outliers. Se medirmos a distância média dos N vizinhos N mais próximos, os valores atípicos terão um valor mais elevado do que outros pontos de dados normais. 69

70 Métodos de seleção de variáveis e redução de dimensionalidade 1. Um conjunto de dados pode conter atributos altamente correlacionados, como o número de itens vendidos e receita obtida pela venda desses itens. 2. Atributos podem conter informações redundantes que não agregam nenhuma nova informação. 3. A seleção é necessária para remover variáveis independentes que podem estar fortemente correlacionadas com outras, e para se certificar que mantemos variáveis independentes que podem estar fortemente correlacionadas com a variável dependente. 70

71 Tarefa: Classificação Para desenvolver os diferentes tipos de modelos de análises, temos um conjunto de tarefas, técnicas e algoritmos. As 3 tarefas principais são: associação, classificação e agrupamentos. Cada uma das diferentes tarefas tem diferentes técnicas de análises e as estas um conjunto de algoritmos que podem ser utilizados. As tarefas, técnicas e algoritmos, podem ser aplicados a todos os modelos analíticos (descrição, diagnóstico, preditivos e prescritivos). 78

72 Tarefa: Classificação Identificação do perfil de clientes inadimplentes no cartão de crédito Tarefa: classificar potenciais novos clientes como inadimplentes ou adimplentes; Experiência de Treinamento: uma base de dados histórica em que os clientes já conhecidos são previamente classificados como inadimplentes ou adimplentes; Medida de Desempenho: porcentagem de clientes classificados corretamente 79

73 Tarefa: Classificação Introdução: Definição, objetivos, tarefas e características da classificação; Abordagem Simbólica: classificação baseado na IA simbólica (heurística): árvore de decisão, teoria da informação, algoritmos ID3 e C4.5; Abordagem Estatística: Classificadores Bayesianos (Naive Bayes), K-Vizinhos mais próximos (k-nearest Neighbor); Abordagem Biológica: classificador baseado na IA biológica: redes neurais e algoritmos genéticos. 80

74 Tarefa: Classificação Definição: É determinar com que grupo de entidades, já classificadas anteriormente um novo objeto apresenta mais semelhanças. O objetivo da classificação, é analisar os dados e desenvolver uma descrição ou modelo para descobrir um relacionamento entre os atributos previsores e o atributo meta. 81

75 Tarefa: Classificação Tarefa: descobrir um relacionamento entre os atributos previsores e o atributo meta, usando registros cuja classe é conhecida, para se construir um modelo de algum tipo que possa ser aplicado aos objetos não classificados para classifica-os. Classificação é usada principalmente para previsão. A tarefa da classificação, é caracterizada por uma boa definição das classes, adquirida em um conjunto de exemplos pre-classificados (dados de treino).

76 Tarefa: Classificação Dia Aspecto Temperatura Umidade Vento Decisão 1 Sol Quente Alta Fraco N 2 Sol Quente Alta Forte N 3 Nublado Quente Alta Fraco S 4 Chuva Agradável Alta Fraco S Algoritmo de classificação (1) Um algoritmo de aprendizagem é executado para induzir um classificador a partir do conjunto de treino Um conjunto de treino com exemplos rotulados é usado para treinar o classificador. Aprender modelo (2) Uma vez construído o classificador, este pode ser usado para classificar futuros exemplos Aplicar modelo (4) MODELO (3) Aspecto Temperatura Umidade Vento Decisão Sol Quente Alta Forte? Nublado Quente Alta Fraco? Chuva Agradável Alta Fraco? Chuva Fria Normal Fraco? conjunto de exemplos sem rótulos 83

77 Abordagem Simbólica 84

78 Técnica: Árvores de Decisão São um método de aprendizagem supervisionado que constrói árvores de classificação a partir de exemplos. Algoritmos : ID3, C4.5, (Quinlan), CART (Breiman) Os métodos baseados em árvores, dividem o espaço de entrada em regiões disjuntas para construir uma fronteira de decisão. As regiões são escolhidas baseadas em técnicas heurísticas onde a cada passo os algoritmos selecionam a variável que provê a melhor separação de classes. 85

79 ID Sexo Cidade Idade 1 M Floripa 25 2 M Criciuma 21 3 F Floripa 23 4 F Criciuma 34 5 F Floripa 30 6 M Blumenau 21 7 M Blumenau 20 8 F Blumenau 18 9 F Floripa M Floripa 55 Comprou Produto X? S S S S N N N N N N 86

80 Não Se (Cidade=Blumenau) Então (Decisão = Não) Cidade Floripa Idade Se (Cidade=Criciúma) Então (Decisão = Sim) Sim Não Sim Se (Cidade=Floripa e Idade <= 27) Então (Decisão = Sim) Se (Cidade=Floripa e Idade > 27) Então (Decisão = Não) 87

81 Cidade SIM NÂO Floripa Criciúma Blumenau 27 Idade 88

82 Algoritmo ID3 ID3, é um algoritmo que construí uma árvore de decisão sob as seguintes premissas: Cada vértice (nodo) corresponde a um atributo, e cada aresta da árvore a um valor possível do atributo. Uma folha da árvore corresponde ao valor esperado da decisão segundo os dados de treino utilizados. A explicação de uma determinada decisão está na trajetória da raiz a folha representativa desta decisão. 89

83 Algoritmo ID3 Cada vértice é associado ao atributo mais informativo que ainda não tenha sido considerado. Para medir o nível de informação de um atributo se utiliza o conceito de entropia da Teoria da Informação. Menor o valor da entropia, menor a incerteza e mais utilidade tem o atributo para a classificação. 90

84 Algoritmo ID3: Exemplo Dia Aspecto Temperatura Umidade Vento Decisão 1 Sol Quente Alta Fraco N 2 Sol Quente Alta Forte N 3 Nublado Quente Alta Fraco S 4 Chuva Agradável Alta Fraco S 5 Chuva Fria Normal Fraco S 6 Chuva Fria Normal Forte N 7 Nublado Fria Normal Forte S 8 Sol Agradável Alta Fraco N 9 Sol Fria Normal Fraco S 10 Chuva Agradável Normal Fraco S 11 Sol Agradável Normal Forte S 12 Nublado Agradável Alta Forte S 13 Nublado Quente Normal Fraco S 14 Chuva Agradável Alta Forte N 91

85 Sol Aspecto Nublado Alta Unidade Vento SIM NÃO Normal SIM SIM Fraco Forte NÃO 92

86 Folha 12 Exercício 1 Algoritmos de classificação 1. Leitura dos dados do problema: Import / Data 2. Escolher o componente Read (segundo o formato dos dados), e configurar os parâmetros; 93

87 Algoritmos de classificação 3. Escolher o componente SetRole para indicar qual é a variável meta. Configurar as propriedades: target role e attibute name. 94

88 Algoritmos de classificação 4. Escolher o algoritmo de mineração ID3: Modeling/Predictive/Trees 95

89 Algoritmos de classificação 5. Executar o processo para ver os resultados. Qual será a decisão, se o dia estiver com sol, temperatura fria, umidade alta e vento forte? 96

90 Algoritmos de classificação Processo para resolver o exercício 2 (folha 12), e configuração do componente Set Role. 97

91 Algoritmos de classificação Outra forma de resolver o exercício 2. O componente Read (2) se configura como o Read anterior, escolhendo o sheet number = 2. Escolher Apply Model de: Modeling/Model Application 98

92 Algoritmos de classificação 99

93 Algoritmo C 4.5 O C 4.5 é uma extensão do ID3: Construí árvores de decisão, com valores desconhecidos para alguns atributos. Trabalha com atributos que apresentam valores contínuos. Utiliza o conceito de poda (pruning) de árvores. Quando existem atributos desconhecidos para alguma variável, os mesmos são considerado como uma nova categoria. Quando existem variáveis com atributos contínuos, o algoritmo cria intervalos segundo as alterações na variável de decisão.

94 Algoritmos de classificação Processo para resolver o exercício 1 (folha 12) com os dados da aba 2. Faça uma cópia do processo do exercício 1 e troque o algoritmo ID3 pelo Decision Tree. 101

95 Avaliação do algoritmo de aprendizado Processo para resolver o exercício 3 (folha 12), parte

96 Avaliação do algoritmo de aprendizado O desempenho de um classificador é medido em termos da sua capacidade preditiva nos futuros exemplos: Como estimar o erro verdadeiro usando apenas um conjunto de exemplos limitado? Taxa de erro de um classificador: proporção de exemplos incorrectamente classificados: Taxa de Erro = Erros / Total 103

97 Avaliação do algoritmo de aprendizado Um algoritmo de aprendizagem deve ser avaliado tendo em conta o seu desempenho (capacidade de generalização) naqueles exemplos que não foram usados para construir o classificador. Ideia básica: Particionar o conjunto de dados disponível em dois conjuntos: conjunto de treino: exemplos que são usados pelo algoritmo de aprendizagem para induzir o classificador; conjunto de teste: exemplos que são usados para estimar a taxa de erro. 104

98 Avaliação do algoritmo de aprendizado Exemplos positivos Exemplos Negativos Preditos positivos Tp Fp Preditos negativos Fn Tn A partir da matriz de confusão, pode-se obter vários resultados para medir a qualidade da classificação: Precision, Recall, Accuracy. Accuracy (taxa de acerto): essa medida denota a proporção de predições corretas, sendo calculada como: Accuracy = (Tp + Tn)/(Tp + Fp + Tn + Fn); Precision (taxa verdadeiro positivo): Tp/(Tp+Fp); Recall (cobertura): Tp/(Tp+Fn)

99 Avaliação do algoritmo de aprendizado Processo para resolver o exercício 3 (folha 12), parte

100 Avaliação do algoritmo de aprendizado Configuração do subprocesso do componente Cross Validation. O operador Cross Validation define um sub-processo que é definido por duas fases: Fase de treino: o operador Decision Tree é usado para aprender um modelo de classificação Fase de teste: são necessários dois operadores: o operador Apply Model que aplica o modelo a cada exemplo do conjunto de teste para obter a classe predita o operador Performance: que permite calcular uma série de medidas de desempenho 110

101 Avaliação do algoritmo de aprendizado A acurácia (taxa de acerto) do modelo é de 93,33%. A precisão (taxa positiva verdadeira) da classe Iris Versicolor, e 88,46%, os falsos positivos são 11,54%. A cobertura (recall) da classe Iris Versicolor é 92,00% e 8,00% os falsos negativos. 111

102 Abordagem Estatística 112

103 Classificadores Bayesianos: Probabilidade condicional P(B A) = P(A B) / P(A) (1) P(A B) = P(A B) / P(B) (2) Naive Bayes De (2) podemos ter: P(A B) = P(A B). P(B) (3) Substituindo (3) em (1) chegamos a regra de Bayes: P(B A) = P(A B). P(B) / P(A) (regra de Bayes)

104 Classificadores Bayesianos: Naive Bayes Dia Aspecto Temperatura Umidade Vento Decisão 1 Sol Quente Alta Fraco N 2 Sol Quente Alta Forte N 3 Nublado Quente Alta Fraco S 4 Chuva Agradável Alta Fraco S 5 Chuva Fria Normal Fraco S 6 Chuva Fria Normal Forte N 7 Nublado Fria Normal Forte S 8 Sol Agradável Alta Fraco N 9 Sol Fria Normal Fraco S 10 Chuva Agradável Normal Fraco S 11 Sol Agradável Normal Forte S 12 Nublado Agradável Alta Forte S 13 Nublado Quente Normal Fraco S 14 Chuva Agradável Alta Forte N 115

105 Classificadores Bayesianos: Naive Bayes Qual será a decisão, se o dia estiver com sol, temperatura fria, umidade alta e vento forte? P(Jogar = S / Aspecto = Sol Temperatura = Fria Umidade = Alta Vento = Forte) =? P( Sol/S) * P( Fria/S) * P(Alta/S) * P(Forte/S) * P(S) P( Sol) * P( Fria) * P(Alta) * P(Forte) (2/9 * 3/9 * 3/9 * 3/9 * 9/14) / (5/14 * 4/14 * 7/14 * 6/14) = 0,0053/0,028 = 0,

106 Classificadores Bayesianos: Naive Bayes P(Jogar = N / Aspecto = Sol Temperatura = Fria Umidade = Alta Vento = Forte) =? P( Sol/N) * P( Fria/N) * P(Alta/N) * P(Forte/N)*P(N) P( Sol) * P( Fria) * P(Alta) * P(Forte) (3/5 * 1/5 * 4/5 * 3/5 * 5/14) / (5/14 * 4/14 * 7/14 * 8/14) = 0,0206/0,028 = 0,

107 K- Nearest Neighbor Exemplo: A classificação de? (F(?)), será a classificação de X i (F(X i )), onde X i é a instancia mais próxima de?. Se k=1, na figura? seria classificado como O Se k=7, na figura? seria classificado como # Outra alternativa, do algoritmo, é dar peso a contribuição de cada um dos k-vizinhos de acordo com sua distancia. 118

108 K- Nearest Neighbor x = < idade(x), altura(x), peso(x), classe(x)>, onde classe pode ser sim, não ] Exemplo: joão = (<36, 1.80, 76>,???) a ser classificado josé = (<30, 1.78, 72>, sim) maria = (<25, 1.65, 60>, sim) anastácia = (<28, 1.60, 68>, não) Calculo da distância euclidiana: d ( x, y) = ( x1 y1) + ( x2 y2) ( x p y p ) d(joão,josé) = [(36-30) 2 + ( ) 2 + (76-72) 2 ] 1/2 = ( ) 1/2 = 7,21 d(joão,maria) = ( ) 1/2 = 19,41 d(joão, anastácia) = ( ) 1/2 = 11,32 119

109 K- Nearest Neighbor Continuação do exercício 3: utilizando K-NN. 120

110 Abordagem Estatística Continuação do exercício 3: parte 2 121

111 Abordagem Estatística Resultado com Decision Tree, Naive Bayes e k-nn. 122

112 Avaliação do algoritmo de aprendizado Processo para resolver o exercício 4 (folha 12), avaliando os resultados. 132

113 Avaliação do algoritmo de aprendizado 133

114 Avaliação do algoritmo de aprendizado A acurácia (taxa de acerto) do modelo é de 57,03%. A precisão (taxa positiva verdadeira) da classe Maioria Tardia é 72,31%, os falsos positivos são 27,69%. A cobertura (recall) da classe Maioria Tardia, é 81,98% 134

115 Tarefa: Associação Associar os itens de vendas de um supermercado Tarefa T: associar os itens que são vendidos em uma mesma venda; Dados de Treinamento E: uma base de dados com os dados dos itens vendidos na mesma venda; Medida de Desempenho P: frequência que as associações acontecem; 140

116 Técnica: Regras de Associação Visa descobrir associações importantes entre os itens (k-itemsets), tal que, a presença de um item em uma determinada transação irá implicar na presença de outro item na mesma transação. Cada registro corresponde a uma transação, com itens assumindo valores binários (sim/não), indicando se o cliente comprou ou não o respectivo item. Uma regra de associação é uma implicação na forma X Y, e possui dois parâmetros básicos: um suporte e uma confiança; 141

117 Técnica: Regras de Associação A função do Suporte é determinar a freqüência (contagem ou em porcentagem) que ocorre um itemset entre todas as transações da Base de Dados. A confiança mede a força da regra e determina a sua validade, isto é, quantifica a frequência do antecedente implicando o consequente. A confiança e suporte são utilizadas como filtro para gerar menos regras. 142

118 Técnica: Regras de Associação Id Leite Café Cerveja Pão Manteiga Arroz Feijão 1 N S N S S N N 2 S N S S S N N 3 N S N S S N N 4 S S N S S N N 5 N N S N N N N 6 N N N N S N N 7 N N N S N N N 8 N N N N N N S 9 N N N N N S S 10 N N N N N S N Leite S = 0.2; Pão S=0.5 Café e Pão S= 0.3 Se (Café) Então (Pão) C = 1.0 (S(Café e Pão)/S(Café) Pão e Manteiga S = 0.4 Se (Pão) Então (Manteiga) C = 0.8 Se (Manteiga) Então (Pão) C = 0.8 Café, Pão e Manteiga S = 0.3 Se (Café e Pão) Então Manteiga C = 1.0 Se (Café) Então (Pão e Manteiga) C =

119 Técnica: Regras de Associação Fases do algoritmo apriori: 1. Geração dos conjuntos candidatos, com suporte acima do mínimo estabelecido; 2. Geração da regras de associação dos conjuntos candidatos gerados no passo anterior com confiança superior ao mínimo estabelecido; 144

120 Algoritmo Apriori Suporte mínimo = 0,5 (ou 2) TID Items 100 A, C, D 200 B, C, E 300 A, B, C, E 400 B, E Base de dados L3 C3 Itemsets So {A,B,C} 1 {A,C,E} 1 {B,C,E} 2 {A,B,E} 1 Itemsets So {B,C,E} 2 = 0.5 Itemsets So {A} 2 {B} 3 {C} 3 {D} 1 {E} 3 C4 Itemsets So { Null } C1 L2 Itemsets So {A,C} 2 = 0,5 {B,C} 2 = 0.5 {B,E} 3 = 0.75 {C,E} 2 = 0.5 Itemsets So {A} 2 = 0.5 {B} 3 = 0.75 {C} 3 = 0.75 {E} 3 = 0.75 L1 C2 Itemsets So {A,B} 1 {A,C} 2 {A,E} 1 {B,C} 2 {B, E} 3 {C, E} 2 FIM (Fase I) FAZER C3 COMPLETO 145

121 Algoritmo Apriori Regras geradas com L2 (para s >= 50% e c >= 60%) Se A Então C ( s = 50%, c = 100%) Se C Então A ( s = 50%, c = 66.7%) Se B Então C ( s = 50%, c = 66.7%) Se C Então B ( s = 50%, c = 66.7%) Se B Então E ( s = 75%, c = 100%) Se E Então B ( s = 75%, c = 100%) Se C Então E ( s = 50%, c = 66.7%) Se E Então C ( s = 50%, c = 66.7%) 146

122 Algoritmo Apriori Regras geradas com L3 (para s >= 50% e c >= 60%) Se B e C Então E ( s = 50%, c = 100%) Se B e E Então C ( s = 50%, c = 66.7%) Se C e E Então B ( s = 50%, c = 100%) Se B Então C e E ( s = 50%, c = 66.7%) Se C Então B e E ( s = 50%, c = 66.7%) Se E Então B e C ( s = 50%, c = 66.7%) 147

123 Folha 13 Exercício 2 Algoritmo Apriori 1. Leitura dos dados do problema: Import / Data 2. Escolher o componente Read (segundo o formato dos dados), e configurar os parâmetros (para aparecer mais parâmetros clique no ícone ) 148

124 Algoritmo Apriori 4. Escolher o algoritmo de mineração: Modeling/Association and Item Set Mining 5. Escolher o componente FT-Growth e configurar o suporte 149

125 Algoritmo Apriori 6. Conectar as duas saídas do componente FT-Growth com as saídas do processo. 7. Salvar o arquivo, executar e verificar as saídas. 150

126 Algoritmo Apriori 8. Escolher o componente Create Association Rules e configurar o parâmetro confiança. 151

127 Algoritmo Apriori 9. Visualizar a saída das regras de associação. 152

128 Algoritmo Apriori Folha 13 exercício 3. Processo final. 153

129 Algoritmo Apriori Processo final e configuração do componente Numerical to Binomial. 154

130 Folha 13 exercício 3. Resultados Algoritmo Apriori 155

Inteligência nos Negócios (Business Inteligente)

Inteligência nos Negócios (Business Inteligente) Inteligência nos Negócios (Business Inteligente) Sistemas de Informação Sistemas de Apoio a Decisão Aran Bey Tcholakian Morales, Dr. Eng. (Apostila 6) Fundamentação da disciplina Analise de dados Decisões

Leia mais

Inteligência nos Negócios (Business Inteligente)

Inteligência nos Negócios (Business Inteligente) Inteligência nos Negócios (Business Inteligente) Sistemas de Informação Sistemas de Apoio a Decisão Aran Bey Tcholakian Morales, Dr. Eng. (Apostila 5) Fundamentação da disciplina Analise de dados Decisões

Leia mais

Inteligência nos Negócios (Business Inteligente)

Inteligência nos Negócios (Business Inteligente) Inteligência nos Negócios (Business Inteligente) Sistemas de Informação Sistemas de Apoio a Decisão Aran Bey Tcholakian Morales, Dr. Eng. (Apostila 5) Fundamentação da disciplina Analise de dados Decisões

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 01 Motivação, áreas de aplicação e fundamentos Max Pereira Nem todo conhecimento tem o mesmo valor. O que torna determinado conhecimento mais importante que

Leia mais

Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães.

Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães. Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães. O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise de dados e algoritmos

Leia mais

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017 Inteligência de Negócios Fatec Indaiatuba Prof. Piva Compreender as definições e conceitos básicos da Mineração de Dados (MD) Entender o processo KDD (Knowledge Discovery Data) e MD Descrever as etapas

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 10 Classificação com Naïve Bayes Max Pereira Raciocínio Probabilístico A notação tradicional para criar e analisar sentenças lógicas

Leia mais

Inteligência Artificial

Inteligência Artificial UFRGS 2 Inteligência Artificial Técnicas de Mineração de Dados Árvores de Decisão Regras de Associação Árvores de Decisão As árvores de decisão (AD) são ferramentas poderosas para classificação cuja maior

Leia mais

Fundamentos de Inteligência Artificial [5COP099]

Fundamentos de Inteligência Artificial [5COP099] Fundamentos de Inteligência Artificial [5COP099] Dr. Sylvio Barbon Junior Departamento de Computação - UEL 1 o Semestre Assunto Aula 8 Análise de Dados 2 de 23 Sumário Introdução Caracterização de Dados

Leia mais

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os

Leia mais

Inteligência Artificial

Inteligência Artificial Inteligência Artificial Descoberta de Conhecimento em Bases de Dados Mineração de Dados Descobertas de regras de associação Descoberta de Conhecimento em Bases de Dados DCBD (Descoberta de Conhecimento

Leia mais

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si Classificação de Dados Os modelos de classificação de dados são preditivos, pois desempenham inferências

Leia mais

Informática Parte 19 Prof. Márcio Hunecke

Informática Parte 19 Prof. Márcio Hunecke Escriturário Informática Parte 19 Prof. Márcio Hunecke Informática NOÇÕES DE ALGORITMOS DE APRENDIZADO O aprendizado automático, aprendizado de máquina (em inglês: "machine learning") ou aprendizagem

Leia mais

Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II. Análise de Dados. Sylvio Barbon Junior 29 de julho de 2016 DC-UEL Sylvio Barbon Jr 1

Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II. Análise de Dados. Sylvio Barbon Junior 29 de julho de 2016 DC-UEL Sylvio Barbon Jr 1 Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II Análise de Dados Sylvio Barbon Junior barbon@uel.br 29 de julho de 2016 DC-UEL Sylvio Barbon Jr 1 Sumário Introdução Caracterização de Dados Exploração de

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 09 Árvores de Decisão Max Pereira Classificação É a tarefa de organizar objetos em uma entre diversas categorias pré-definidas. Exemplos

Leia mais

Informática. Aprendizado de Máquina. Professor Márcio Hunecke.

Informática. Aprendizado de Máquina. Professor Márcio Hunecke. Informática Aprendizado de Máquina Professor Márcio Hunecke www.acasadoconcurseiro.com.br Informática Aula XX NOÇÕES DE ALGORITMOS DE APRENDIZADO O aprendizado automático, aprendizado de máquina (em inglês:

Leia mais

Mineração de Dados em Biologia Molecular

Mineração de Dados em Biologia Molecular Mineração de Dados em Biologia Molecular Análise de associação Principais tópicos Análise de associação Itens frequentes Conjunto de itens frequentes de associação Avaliação de regras de associação Docente:

Leia mais

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho... DCBD Métricas para avaliação de desempenho Como avaliar o desempenho de um modelo? Métodos para avaliação de desempenho Como obter estimativas confiáveis? Métodos para comparação de modelos Como comparar

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos

Leia mais

Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]

Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo] Inteligência Artificial Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo] Aprendizagem de Máquina Área da Inteligência Artificial cujo objetivo é o desenvolvimento de técnicas computacionais sobre

Leia mais

Árvores de decisão. Marcelo K. Albertini. 17 de Agosto de 2015

Árvores de decisão. Marcelo K. Albertini. 17 de Agosto de 2015 Árvores de decisão Marcelo K. Albertini 17 de Agosto de 2015 2/31 Árvores de Decisão Nós internos testam o valor de um atributo individual ramificam de acordo com os resultados do teste Nós folhas especificam

Leia mais

Descoberta de Conhecimento em Bancos de Dados - KDD

Descoberta de Conhecimento em Bancos de Dados - KDD Descoberta de Conhecimento em Bancos de Dados - KDD Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Fases do processo 3. Exemplo do DMC 4. Avaliação

Leia mais

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri Mineração de Dados Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri 1 Motivação Aumento da capacidade de processamento e de armazenamento de dados; Baixo custo; Grande quantidade de dados

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 14 Regras de Associação Max Pereira Regras de Associação Motivação O que é geralmente comprado junto com o produto x? Que pares de produtos são comprados juntos?

Leia mais

Introdução ao Data Mining (Mineração de Dados)

Introdução ao Data Mining (Mineração de Dados) Introdução ao Data Mining (Mineração de Dados) Quem é da área de TI, provavelmente já ouviu sobre Data Mining, mesmo que não saiba o que é. É uma das últimas modas relacionados à BD. Para se ter uma noção

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Árvores de Decisão Poda e extensões Prof. Paulo Martins Engel UFRGS 2 Questões sobre Árvores de Decisão Questões práticas do aprendizado de AD incluem: Determinar até quando se

Leia mais

Aprendizado Bayesiano Anteriormente...

Aprendizado Bayesiano Anteriormente... Aprendizado Bayesiano Anteriormente... Conceito de Probabilidade Condicional É a probabilidade de um evento A dada a ocorrência de um evento B Universidade de São Paulo Instituto de Ciências Matemáticas

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Universidade Federal do Espírito Santo Centro de Ciências Agrárias CCA UFES Departamento de Computação Aprendizado de Máquina Inteligência Artificial Site: http://jeiks.net E-mail: jacsonrcsilva@gmail.com

Leia mais

Fundamentos de Inteligência Artificial [5COP099]

Fundamentos de Inteligência Artificial [5COP099] Fundamentos de Inteligência Artificial [5COP099] Dr. Sylvio Barbon Junior Departamento de Computação - UEL 1 o Semestre Assunto Aula 10 Modelos Preditivos - Árvore de Decisão 2 de 20 Aula 10 - Árvore de

Leia mais

Regras de Associação. José Augusto Baranauskas Departamento de Física e Matemática FFCLRP-USP

Regras de Associação. José Augusto Baranauskas Departamento de Física e Matemática FFCLRP-USP Regras de Associação A compra de um produto quando um outro produto é comprado representa uma Regra de Associação Regras de Associação são frequentemente utilizadas para apoiar campanhas de marketing e

Leia mais

Aprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR

Aprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR Aprendizagem de Máquina - 2 Prof. Júlio Cesar Nievola PPGIa - PUCPR Inteligência versus Aprendizado Aprendizado é a chave da superioridade da Inteligência Humana Para que uma máquina tenha Comportamento

Leia mais

10 FORMAS ESTATÍSTICA MODELAGEM PARA USAR

10 FORMAS ESTATÍSTICA MODELAGEM PARA USAR 10 FORMAS PARA USAR MODELAGEM ESTATÍSTICA Introdução Conheça um pouco mais sobre algumas modelagens estatísticas e como você pode implantar dentro da sua organização A análise preditiva é capaz de descobrir

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 07 Classificação com o algoritmo knn Max Pereira Classificação com o algoritmo k-nearest Neighbors (knn) Como os filmes são categorizados em gêneros? O que

Leia mais

Estatística Descritiva

Estatística Descritiva C E N T R O D E M A T E M Á T I C A, C O M P U T A Ç Ã O E C O G N I Ç Ã O UFABC Estatística Descritiva Centro de Matemática, Computação e Cognição March 17, 2013 Slide 1/52 1 Definições Básicas Estatística

Leia mais

Roteiro. PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores. Estimativa da Acurácia. Introdução. Estimativa da Acurácia

Roteiro. PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores. Estimativa da Acurácia. Introdução. Estimativa da Acurácia Roteiro PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores Introdução Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br

Leia mais

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR Aprendizagem de Máquina Prof. Júlio Cesar Nievola PPGIA - PUCPR Introdução Justificativa Recente progresso em algoritmos e teoria Disponibilidade crescente de dados online Poder computacional disponível

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Introdução 1 Introdução Aprendizado de Máquina Extração de conhecimento. Automatização de tarefas. Tomada de Decisões.

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Universidade Federal do Espírito Santo Centro de Ciências Agrárias CCENS UFES Departamento de Computação Aprendizado de Máquina Inteligência Artificial Site: http://jeiks.net E-mail: jacsonrcsilva@gmail.com

Leia mais

Associações & Freqüentes

Associações & Freqüentes Associações & Análises de Itens Freqüentes Eduardo R. Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível no sítio http://www.kdnuggets.com Visão Geral: Transações Itens freqüentes Regras

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 07 Classificação com o algoritmo knn Max Pereira Classificação com o algoritmo (knn) Um algoritmo supervisionado usado para classificar

Leia mais

Banco de Dados Data Mining Data Warehouse Big Data

Banco de Dados Data Mining Data Warehouse Big Data Universidade Estadual de Mato Grosso do Sul Curso de Computação, Licenciatura Banco de Dados Data Mining Data Warehouse Big Data Prof. José Gonçalves Dias Neto profneto_ti@hotmail.com Data Mining: Introdução

Leia mais

M08. Introdução a Técnicas de Data Mining DM

M08. Introdução a Técnicas de Data Mining DM M08. Introdução a Técnicas de Data Mining DM 3 - CLASSIFICAÇÃO E PREDIÇÃO LNCC/MCT - 15/01/2008 Custódio Gouvêa Lopes da Motta custodio.motta@ufjf.edu.br www.dcc.ufjf.br Agradecimentos: CNPq, LNCC, UFJF,

Leia mais

HP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes.

HP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes. HP UFCG Analytics Abril-Maio 2012 Um curso sobre Reconhecimento de Padrões e Redes Neurais Por Herman Martins Gomes hmg@dsc.ufcg.edu.br Programa Visão Geral (2H) Reconhecimento Estatístico de Padrões (3H)

Leia mais

FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS

FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS PROJETO PEDAGÓGICO CAMPO LIMPO PAULISTA 2015 1. Público

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Universidade Federal do Espírito Santo Centro de Ciências Agrárias CCA UFES Departamento de Computação Aprendizado de Máquina Inteligência Artificial Site: http://jeiks.net E-mail: jacsonrcsilva@gmail.com

Leia mais

Tutorial básico de classificação em RapidMiner

Tutorial básico de classificação em RapidMiner Tutorial básico de classificação em RapidMiner Mineração de dados biológicos Ciências físicas e biomoleculares Neste tutorial, aprenderemos a utilizar as funcionalidades básicas para classificação em Rapidminer.

Leia mais

Data Mining. Rodrigo Leite Durães

Data Mining. Rodrigo Leite Durães Rodrigo Leite Durães rodrigo_l_d@yahoo.com.br Processo de mineração de dados e descoberta de informações relevantes em grandes volumes de dados. "... processo não-trivial de identificar, em dados, padrões

Leia mais

Universidade Federal de Mato Grosso - UFMT Probabilidade e Estatística

Universidade Federal de Mato Grosso - UFMT Probabilidade e Estatística Universidade Federal de Mato Grosso - UFMT Probabilidade e Estatística 1 Introdução Definição: Estatística é um conjunto de conceitos e métodos científicos para coleta, organização, descrição, análise

Leia mais

Classificação. Eduardo Raul Hruschka

Classificação. Eduardo Raul Hruschka Classificação Eduardo Raul Hruschka Agenda: Conceitos de Classificação Técnicas de Classificação One Rule (1R) Naive Bayes (com seleção de atributos) Super-ajuste e validação cruzada Combinação de Modelos

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Modelos preditivos A tarefa de classificação Modelos Preditivos A tarefa de geração de um modelo preditivo consiste em aprender um mapeamento de entrada para a saída. Neste caso,

Leia mais

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU Aula 6 Mineração Streams Representação dos Dados Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof. Andre C. P. L. F. Carvalho Agradecimentos

Leia mais

Redes Neurais e Sistemas Fuzzy

Redes Neurais e Sistemas Fuzzy 1. Inteligência Computacional Redes Neurais e Sistemas Fuzzy Apresentação da disciplina Conceitos básicos A chamada Inteligência Computacional (IC) reúne uma série de abordagens e técnicas que tentam modelar

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Sistemas de Informação Inteligente Prof. Leandro C. Fernandes Adaptação dos materiais de: Thiago A. S. Pardo, Daniel Honorato e Bianca Zadrozny APRENDIZADO SIMBÓLICO: ÁRVORES DE

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina écnicas de Classificação Árvores de Decisão Prof. Paulo Martins Engel UFRGS Árvores de Decisão As árvores de decisão (AD) são ferramentas poderosas para classificação cuja maior

Leia mais

Profs.: Eduardo Vargas Ferreira Walmes Marques Zeviani

Profs.: Eduardo Vargas Ferreira Walmes Marques Zeviani Universidade Federal do Paraná Laboratório de Estatística e Geoinformação - LEG Introdução Profs.: Eduardo Vargas Ferreira Walmes Marques Zeviani O que é Machine Learning? Estatística Machine Learning

Leia mais

Aprendizagem de máquina

Aprendizagem de máquina Aprendizagem de máquina Aprendizado de Conceitos Busca guiada por exemplos Aprendizado supervisionado: classificação Aprender uma classe a partir de exemplos é encontrar uma descrição que é compartilhada

Leia mais

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Tipos de Aprendizagem. Luiz Eduardo S. Oliveira, Ph.D.

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Tipos de Aprendizagem. Luiz Eduardo S. Oliveira, Ph.D. Universidade Federal do Paraná Departamento de Informática Reconhecimento de Padrões Tipos de Aprendizagem Luiz Eduardo S. Oliveira, Ph.D. http://lesoliveira.net Objetivos Introduzir diferentes tipos de

Leia mais

RECONHECIMENTO DE PADRÕES - RP

RECONHECIMENTO DE PADRÕES - RP RECONHECIMENTO DE PADRÕES - RP Definições Básicas O que é? 2 Ramo do aprendizado de máquina Consiste em atribuir um rótulo (ou classe) para uma certa amostra ou valor de entrada Exemplo: classificação

Leia mais

Profa. Lidia Rodella UFPE-CAA

Profa. Lidia Rodella UFPE-CAA Profa. Lidia Rodella UFPE-CAA O que é estatística? É conjunto de técnicas que permite, de forma sistemática, coletar, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos,

Leia mais

Roteiro. PCC142 / BCC444 - Mineração de Dados. Cenário

Roteiro. PCC142 / BCC444 - Mineração de Dados. Cenário Roteiro PCC142 / BCC444 - Mineração de Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br www.decom.ufop.br/luiz Introdução Tarefas

Leia mais

SUPPORT VECTOR MACHINE - SVM

SUPPORT VECTOR MACHINE - SVM SUPPORT VECTOR MACHINE - SVM Definição 2 Máquinas de Vetores Suporte (Support Vector Machines - SVMs) Proposto em 79 por Vladimir Vapnik Um dos mais importantes acontecimentos na área de reconhecimento

Leia mais

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga Aula 8 - Reconhecimento e Interpretação Prof. Adilson Gonzaga Elementos de Visão Computacional: Visão Computacional Processamento de Baio Nível Processamento de Nível Intermediário Processamento de Alto

Leia mais

Aprendizado em IA. Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação

Aprendizado em IA. Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação Aprendizado em IA Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação Tópicos Agentes baseados em aprendizado Aprendizado indutivo Árvores de decisão Método ID3 Aprendizado em redes neurais

Leia mais

Planificação Anual. Matemática Dinâmica 7º ano Luísa Faria; Luís Guerreiro Porto Editora. 1 Números inteiros. 10 Sequências e Regularidades

Planificação Anual. Matemática Dinâmica 7º ano Luísa Faria; Luís Guerreiro Porto Editora. 1 Números inteiros. 10 Sequências e Regularidades 3º Período 2º Período 1º Período AGRUPAMENTO DE ESCOLAS DE CASTRO DAIRE Escola EBI de Mões Grupo de Recrutamento 500 MATEMÁTICA Ano lectivo 2012/2013 Planificação Anual Disciplina: Matemática Ano: 7º Carga

Leia mais

índice 2. Vetores e Tipos Primitivos PARTE 1- O Sistema R 1. Introdução ao Sistema R

índice 2. Vetores e Tipos Primitivos PARTE 1- O Sistema R 1. Introdução ao Sistema R índice Os Autores Prólogo XI XIII PARTE 1- O Sistema R 1. Introdução ao Sistema R 1.1. O que é o R? 1.2. Instalar o R 1.3. Edição de Comandos e Ambientes de Desenvolvimento 1.. Objetos, Funções e Packages

Leia mais

lnteligência Artificial Aprendizagem em IA

lnteligência Artificial Aprendizagem em IA lnteligência Artificial Aprendizagem em IA 1 Aprendizagem por que? Capacidade de aprender é parte fundamental do conceito de inteligência. Um agente aprendiz é mais flexível aprendizado permite lidar com

Leia mais

AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO

AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS MATEMÁTICA 7.º ANO PLANIFICAÇÃO ANUAL Planificação 7º ano 2010/2011 Página 1 DOMÍNIO TEMÁTICO: NÚMEROS

Leia mais

Laboratório Classificação com o WEKA Explorer

Laboratório Classificação com o WEKA Explorer Laboratório Classificação com o WEKA Explorer Para esse laboratório considere os seguintes classificadores: C4.5 (J4.8) KNN Naïve Bayes Considere as bases de treinamento e teste de dígitos manuscrítos

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Aprendizagem Baseada em Instâncias Plano de Aula Introdução Espaço

Leia mais

Aprendizado de Máquinas

Aprendizado de Máquinas Aprendizado de Máquinas Objetivo A área de aprendizado de máquina preocupa-se em construir programas que automaticamente melhorem seu desempenho com a experiência. Conceito AM estuda métodos computacionais

Leia mais

VÁ ALÉM DO BI TRADICIONAL ADICIONANDO PODER ANALÍTICO... MARIANA FONTANEZI ESTATÍSTICA

VÁ ALÉM DO BI TRADICIONAL ADICIONANDO PODER ANALÍTICO... MARIANA FONTANEZI ESTATÍSTICA Business Inteligence & Analytics VÁ ALÉM DO BI TRADICIONAL ADICIONANDO PODER ANALÍTICO... MARIANA FONTANEZI ESTATÍSTICA Apresentação Agenda O Big Data O ciclo analítico Técnicas de Data Mining Técnicas

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina A necessidade de inserir aprendizado nas máquinas surgiu após a construção dos Sistemas Especialistas (SEs). Os primeiros SEs não possuíam mecanismo de aprendizado e tornavam-se

Leia mais

Introdução à análise exploratória de dados

Introdução à análise exploratória de dados Introdução à análise exploratória de dados Wagner H. Bonat Elias T. Krainski Fernando P. Mayer Universidade Federal do Paraná Departamento de Estatística Laboratório de Estatística e Geoinformação LEG/DEST/UFPR

Leia mais

A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE:

A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE: A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE: ESELAW 09 MARCOS ANTÔNIO P. & GUILHERME H. TRAVASSOS) 1 Aluna: Luana Peixoto Annibal

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Aula #8.1 EBS 564 IA Prof. Luiz Fernando S. Coletta luizfsc@tupa.unesp.br Campus de Tupã Conhecimento: abstração (modelo) das relações existentes entre as informações contidas nos

Leia mais

24/11/13. Aprendendo pelas observações. PCS 2428 / PCS 2059 lnteligência Ar9ficial. Prof. Dr. Jaime Simão Sichman Prof. Dra. Anna Helena Reali Costa

24/11/13. Aprendendo pelas observações. PCS 2428 / PCS 2059 lnteligência Ar9ficial. Prof. Dr. Jaime Simão Sichman Prof. Dra. Anna Helena Reali Costa PCS 2428 / PCS 2059 lnteligência Ar9ficial Prof. Dr. Jaime Simão Sichman Prof. Dra. Anna Helena Reali Costa Aprendizagem Indu9va Aprendendo pelas observações Idéia: percepção deve ser usada não somente

Leia mais

Regressão Linear. Fabrício Olivetti de França. Universidade Federal do ABC

Regressão Linear. Fabrício Olivetti de França. Universidade Federal do ABC Regressão Linear Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Overfitting 2. Treino e Validação 3. Baseline dos modelos 1 Overfitting Overfit Em muitos casos, a amostra de dados coletada

Leia mais

Elementos de Estatística. Michel H. Montoril Departamento de Estatística - UFJF

Elementos de Estatística. Michel H. Montoril Departamento de Estatística - UFJF Elementos de Estatística Michel H. Montoril Departamento de Estatística - UFJF O que é a estatística? Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os estatísticos são

Leia mais

SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos

SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos Departamento de Engenharia Elétrica - EESC-USP SEL-0339 Introdução à Visão Computacional Aula 7 Reconhecimento de Objetos Prof. Dr. Marcelo Andrade da Costa Vieira Prof. Dr. Adilson Gonzaga mvieira@sc.usp.br

Leia mais

Implementação de um sistema de validação estatística configurável de dados

Implementação de um sistema de validação estatística configurável de dados Implementação de um sistema de validação estatística configurável de dados Eduardo Dias Filho Supervisores: João Eduardo Ferreira e Pedro Losco Takecian 16 de novembro de 2014 Introdução Table of Contents

Leia mais

Seleção de Atributos 1

Seleção de Atributos 1 Seleção de Atributos 1 Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Seleção de atributos antes do aprendizado Benefícios Abordagens automáticas

Leia mais

Métodos Matemáticos para Gestão da Informação

Métodos Matemáticos para Gestão da Informação Métodos Matemáticos para Gestão da Informação Aula 02 Introdução a dados e funções - I Dalton Martins dmartins@gmail.com Bacharelado em Gestão da Informação Faculdade de Informação e Comunicação Universidade

Leia mais

à Análise de Padrões

à Análise de Padrões CC-226 Introdução à Análise de Padrões Prof. Carlos Henrique Q. Forster Visão Geral do Curso e Introdução a Classificadores Padrões São apresentados como tuplas de variáveis aleatórias O conjunto amostra

Leia mais

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Desempenho de Classificação. Classificação IV: Avaliação de Classificadores

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Desempenho de Classificação. Classificação IV: Avaliação de Classificadores SCC0173 Mineração de Dados Biológicos Classificação IV: Avaliação de Classificadores Créditos O material a seguir consiste de adaptações e extensões dos originais: gentilmente cedidos pelo rof. André C..

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Aprendizagem Baseada em Instâncias Alessandro L. Koerich Mestrado/Doutorado em Informática (PPGIa) Pontifícia Universidade Católica do Paraná (PUCPR) Mestrado/Doutorado em Informática

Leia mais

Modelos de Regressão Linear Simples parte I

Modelos de Regressão Linear Simples parte I Modelos de Regressão Linear Simples parte I Erica Castilho Rodrigues 27 de Setembro de 2017 1 2 Objetivos Ao final deste capítulo você deve ser capaz de: Usar modelos de regressão para construir modelos

Leia mais

PLANO CURRICULAR DISCIPLINAR. MATEMÁTICA 7º Ano

PLANO CURRICULAR DISCIPLINAR. MATEMÁTICA 7º Ano PLANO CURRICULAR DISCIPLINAR MATEMÁTICA 7º Ano OBJETIVOS ESPECÍFICOS TÓPICOS SUBTÓPICOS METAS DE APRENDIZAGEM 1º Período - Multiplicar e dividir números inteiros. - Calcular o valor de potências em que

Leia mais

Modelos de Regressão Linear Simples - parte I

Modelos de Regressão Linear Simples - parte I Modelos de Regressão Linear Simples - parte I Erica Castilho Rodrigues 19 de Agosto de 2014 Introdução 3 Objetivos Ao final deste capítulo você deve ser capaz de: Usar modelos de regressão para construir

Leia mais

Mineração de padrões frequentes

Mineração de padrões frequentes Mineração de padrões frequentes Fabrício J. Barth fabricio.barth@gmail.com Setembro de 2016 Objetivos Os objetivos desta aula são: Apresentar e discutir métodos para identificar associações úteis em grandes

Leia mais

Metodologia Aplicada a Computação.

Metodologia Aplicada a Computação. Metodologia Aplicada a Computação gaudenciothais@gmail.com Pré-processamento de dados Técnicas utilizadas para melhorar a qualidade dos dados; Eliminam ou minimizam os problemas como ruídos, valores incorretos,

Leia mais

Sumário. Prefácio... xi. Probabilidade e Estatística... 1

Sumário. Prefácio... xi. Probabilidade e Estatística... 1 Sumário 1 Prefácio............................................................................ xi Probabilidade e Estatística.................................................... 1 1.1 Introdução.......................................................................

Leia mais

Sistemas de Informação e Decisão. Douglas Farias Cordeiro

Sistemas de Informação e Decisão. Douglas Farias Cordeiro Sistemas de Informação e Decisão Douglas Farias Cordeiro Decisão Tomamos decisões a todo momento! O que é uma decisão? Uma decisão consiste na escolha de um modo de agir, entre diversas alternativas possíveis,

Leia mais

Inteligência Artificial

Inteligência Artificial https://www.pinterest.com/carlymundo/decision-tree-infographics/ Universidade Federal de Campina Grande Departamento de Sistemas e Computação Pós-Graduação em Ciência da Computação Inteligência Artificial

Leia mais

Considerações de Desempenho

Considerações de Desempenho Back Propagation Considerações de Desempenho Dicas para o BP O uso da função de ativação simétrica geralmente acelera o treinamento TANH +1 logistic linear 0 tanh -1-4 +4 1 Dicas para o BP Os pesos devem

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina O que é Aprendizado? Memorizar alguma coisa Aprender fatos por meio de observação e exploração Melhorar habilidades motoras/cognitivas por meio de prática Organizar novo conhecimento

Leia mais

21/02/17. Aprendendo pelas observações. PCS 5869 lnteligência Ar9ficial. Prof. Dr. Jaime Simão Sichman Prof. Dra. Anna Helena Reali Costa

21/02/17. Aprendendo pelas observações. PCS 5869 lnteligência Ar9ficial. Prof. Dr. Jaime Simão Sichman Prof. Dra. Anna Helena Reali Costa PCS 5869 lnteligência Ar9ficial Prof. Dr. Jaime Simão Sichman Prof. Dra. Anna Helena Reali Costa Aprendizagem Indu9va Aprendendo pelas observações Idéia: percepção deve ser usada não somente para a atuação

Leia mais

2 Mineração de Dados Processo de Busca de Conhecimento (KDD) 2 Mineração de Dados

2 Mineração de Dados Processo de Busca de Conhecimento (KDD) 2 Mineração de Dados 2 Mineração de Dados 2 Mineração de Dados A mineração de dados, ou data mining, é uma das principais etapas do processo de busca de conhecimento. Este conceito é utilizado para identificar técnicas avançadas

Leia mais

Profissinais que desejam adquirir ou aprimorar seus conhecimentos em modelagem de dados, analytics e estatística aplicada

Profissinais que desejam adquirir ou aprimorar seus conhecimentos em modelagem de dados, analytics e estatística aplicada MBA ANALYTICS OBJETIVOS Na era da informação, as empresas capturam e armazenam muitos dados, e existe a real necessidade da aplicação de técnicas adequadas para a rápida tomada de decisão com base nas

Leia mais