Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Tamanho: px
Começar a partir da página:

Download "Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR"

Transcrição

1

2 Dado um conjunto de transações, achar regras que prevejam a ocorrência de um item baseado nas ocorrências de outros itens na transação Market-Basket transactions TID Items 1 Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke Exemplo de Regras de Associação {Diaper} {Beer}, {Milk, Bread} {Eggs,Coke}, {Beer, Bread} {Milk}, Implicação significa co-occurrência, não causalidade!

3 Conjunto de itens Uma coleção de um ou mais itens Exemplo: {Milk, Bread, Diaper} Conjunto de k itens Um conjunto de itens que contém k itens Contagem de suporte (σ) Freqüência de ocorrência de um conjunto de itens E.g. σ({milk, Bread,Diaper}) = 2 Suporte Fração das transações que contém um conjunto de itens E.g. s({milk, Bread, Diaper}) = 2/5 Conjunto de itens freqüentes Um conjunto de itens cujo suporte é maior ou igual a um limiar minsup TID Items 1 Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke

4 Regra de Associação Uma expressão de implicação da forma X Y, em que X e Y são conjuntos de itens Exemplo: {Milk, Diaper} {Beer} Métricas de Avaliação de Regras Suporte Fração das transações que contém tanto X quanto Y Confiança Mede quão freqüentemente itens em Y aparecem em transações que contém X TID Exemplo: Items 1 Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke { Milk, Diaper} (Milk, Diaper, Beer) s = σ = T σ (Milk,Diaper,Beer) c = = σ (Milk, Diaper) Beer = 0.4 = 0.67

5 Dado um conjunto de transações T, o objetivo da mineração de regras de associação é encontrar todas as regras que tenham suporte liminar minsup confiança limiar minconf Abordagem de força bruta: Listar todas as possíveis regras de associação Calcular o suporte e confiança para cada regra Podar regras que não atendem aos limiares de minsup e minconf Computacionalmente proibitivo!

6 TID Items 1 Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke Exemplo de Regras: {Milk,Diaper} {Beer} (s=0.4, c=0.67) {Milk,Beer} {Diaper} (s=0.4, c=1.0) {Diaper,Beer} {Milk} (s=0.4, c=0.67) {Beer} {Milk,Diaper} (s=0.4, c=0.67) {Diaper} {Milk,Beer} (s=0.4, c=0.5) {Milk} {Diaper,Beer} (s=0.4, c=0.5) Observações: Todas as regras acima são partições binárias do mesmo conjunto de itens: {Milk, Diaper, Beer} Regras originadas do mesmo conjunto de itens tem suporte idêntico mas podem ter confiança diferentes Então, pode-se desacoplar os requisitos de suporte e confiança

7 Abordagem em dois passos: 1. Geração de Conjuntos de Itens Freqüentes Gerar todos os conjuntos de itens com suporte minsup 2. Geração de Regras Gerar regras com alta confiança a partir de cada conjunto de itens freqüente, em que cada regra é uma partição binária de um conjunto de itens freqüente Geração de conjuntos de itens freqüentes ainda é computacionalmente cara

8 null A B C D E AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE ABCDE Dados d itens, há 2 d possíveis conjuntos de itens candidatos

9 Abordagem por força bruta: Cada conjunto de itens no reticulado é um candidato a conjunto de itens freqüentes Contar o suporte de cada candidato baseado nos dados N Transações TID Items 1 Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke w Lista de Candidatos Avaliar cada transição em relação a cada candidato Complexidade ~ O(NMw) => Caro pois M = 2 d!!! M

10 !"! Dados d itens únicos: Número total conjuntos de itens = 2 d Número total de possíveis regras de associação: = = + = = d d d k k d j j k d k d R Se d=6, R = 602 regras

11 #$ Reduzir o número de candidatos (M) Busca Completa: M = 2 d Usar técnicas de poda para reduzir M Reduzir o número de transações (N) Reduzir tamanho de N conforme crescem o conjuntos de itens Usado por DHP e algoritmos de mineração vertical-based Reduzir o número de comparações (NM) Usar estruturas de dados eficientes para armazenar os candidatos ou transações Sem necessidade de comparar todos os candidatos com todas as transações

12 % &' Princípio Apriori: Se um conjunto de itens é freqüente, então todos os seus subconjuntos também devem ser freqüentes Princípio Apriori se mantém devido à seguinte propriedade das medidas de suporte: X, Y : ( X Y ) s( X ) s( Y ) Suporte de um conjunto de itens nunca excede o suporte de seus subconjuntos Conhecido como propriedade anti-monótona de suporte

13 ()!! Encontrado como não freqüente Super-conjuntos podados

14 ()!! Item Count Bread 4 Coke 2 Milk 4 Beer 3 Diaper 4 Eggs 1! Itemset Count {Bread,Milk} 3 {Bread,Beer} 2 {Bread,Diaper} 3 {Milk,Beer} 2 {Milk,Diaper} 3 {Beer,Diaper} 3 "# $ % & % & %!' "$ %&%&! Ite m s e t C o u n t {B re a d,m ilk,d ia p e r} 3

15 ! Método: Faça k = 1 Gerar conjuntos de itens freqüentes de tamanho 1 Repetir até não haver novos conjuntos de itens freqüentes Gerar conjuntos de itens candidatos de tamanho (k +1) a partir de conjuntos de itens freqüentes de tamanho k Podar conjuntos de itens candidatos contendo subconjuntos de tamanho k que não são freqüentes Contar o suporte de cada candidato na base de dados Eliminar candidatos que não sejam freqüentes, deixando somente aqueles que são freqüentes

16 !" Escolha do limiar do suporte mínimo Baixando limiar do suporte resulta em conjuntos de itens mais freqüentes Isto pode aumentar o número de candidatos e o comprimento máximo dos conjuntos de itens freqüentes Dimensionalidade (número de itens) do conjunto de dados É preciso mais espaço para guardar contagem de suporte de cada item Se número de itens freqüentes também aumenta, tanto os custos de cálculo quanto de I/O também podem aumentar Tamanho da base de dados Como Apriori realiza múltiplas passadas, tempo de execução do algoritmo pode aumentar com o número de transações Largura média da transação Largura da transação aumenta em conjuntos de dados mais densos Isto pode aumentar o comprimento máximo dos conjuntos de itens freqüentes e caminho na árvore de hash (número de subconjuntos em uma transação aumenta com sua largura)

17 !! Alguns conjuntos de itens são redundantes pois tem suporte idêntico ao de seus super-conjuntos TID A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 B1 B2 B3 B4 B5 B6 B7 B8 B9 B10 C1 C2 C3 C4 C5 C6 C7 C8 C9 C Número de conjuntos de itens freqüentes É preciso uma representação compacta = 10 = 3 10 k 1 k

18 " Um conjunto de itens é freqüente máximo se nenhum seu superconjunto imediato é freqüente Conjuntos de itens Máximos Conjuntos de itens nãofreqüentes Fronteira

19 * Um conjunto de itens é fechado se nenhum de seus super-conjuntos imediatos tem o mesmo suporte que o conjunto de itens TID Itens 1 {A,B} 2 {B,C,D} 3 {A,B,C,D} 4 {A,B,D} 5 {A,B,C,D} Conjunto de itens {A} 4 {B} 5 {C} 3 {D} 4 {A,B} 4 {A,C} 2 {A,D} 3 {B,C} 3 {B,D} 4 {C,D} 3 Suporte Conjunto de itens Suporte {A,B,C} 2 {A,B,D} 3 {A,C,D} 2 {B,C,D} 3 {A,B,C,D} 2

20 " +* TID Itens 1 ABC 2 ABCD 3 BCE 4 ACDE 5 DE null ID da Transação A B C D E AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE 2 4 ABCD ABCE ABDE ACDE BCDE Não suportado por qualquer transação ABCDE

21 " +* Suporte mínimo = 2 null Fechado mas não máximo A B C D E Fechado e máximo AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE 2 4 ABCD ABCE ABDE ACDE BCDE # Fechado = 9 # Máximo = 4 ABCDE

22 " +* Conjuntos de Itens Freqüentes Conjuntos de Itens Freqüentes Fechados Conj. Itens Freqüentes Máximo

23 $ +! Cruzamento do Reticulado do Conjunto de Itens Geral para específico versus Específico para geral Borda dos Conj. Itens Freqüentes nulo nulo Borda dos Conj. Itens Freqüentes nulo {a 1,a 2,...,a n } {a 1,a 2,...,a n } Borda dos Conj. Itens Freqüentes {a 1,a 2,...,a n } (a) Geral para específico (b) Específico para geral (c) Bi-direcional

24 $ +! Cruzamento do Reticulado do Conjunto de Itens Classes Equivalentes null null A B C D A B C D AB AC AD BC BD CD AB AC BC AD BD CD ABC ABD ACD BCD ABC ABD ACD BCD ABCD ABCD (a) Árvore de Prefixos (b) Árvore de Sufixos

25 $ +! Cruzamento do Reticulado do Conjunto de Itens Largura Primeiro versus Profundidade Primeiro (a) Largura Primeiro (b) Profundidade Primeiro

26 $ +! Representação da Base de Dados Leiaute horizontal versus vertical dos dados Leiaute Horizontal dos Dados TID Items 1 A,B,E 2 B,C,D 3 C,E 4 A,C,D 5 A,B,C,D 6 A,E 7 A,B 8 A,B,C 9 A,C,D 10 B Leiaute Vertical dos Dados A B C D E

27 Dado um conjunto de itens freqüente L, achar todos os subconjuntos não-vazios f L tal que f L f satisfaz o requisito de confiança mínima Se {A,B,C,D} é um conjuntos de itens freqüente, regras candidatas: ABC D, ABD C, ACD B, BCD A, A BCD, B ACD, C ABD, D ABC AB CD, AC BD, AD BC, BC AD, BD AC, CD AB Se L = k, então há 2 k 2 regras de associação candidatas (ignorando L e L)

28 Como gerar regras eficientemente a partir de conjuntos de itens freqüentes? Em geral a confiança não tem uma propriedade anti-monótona c(abc D) pode ser maior ou menor que c(ab D) Mas confiança de regras geradas do mesmo conjunto de itens tem uma propriedade de anti-monotonia e.g., L = {A,B,C,D}: c(abc D) c(ab CD) c(a BCD) Confiança é anti-monótona com relação ao número de itens do lado direito da regra

29 !! Reticulado de regras Regra de Baixa Confiança Regras Podadas

30 !! Regra candidata é gerada misturando 2 regras que partilham mesmo prefixo no conseqüente da regra join(cd=>ab,bd=>ac) produziria a regra candidata D => ABC CD=>AB BD=>AC Podar regra D=>ABC se seus subconjuntos AD=>BC não tem alta confiança D=>ABC

31 #, -! Como ajustar o limiar minsup apropriado? Se minsup é ajustado muito alto, pode-se perder conjuntos de itens envolvendo itens raros interessants (e.g., produtos caros) Se minsup é ajustado muito baixo, é caro computacionalmente e o número de conjuntos de itens é muito grande Usando um único limiar mínimo de suporte pode não ser efetivo

32 + (. Algoritmos de regras de associação tendem a produzir regras em demasia muitas delas são redundantes ou não interessantes redundante se {A,B,C} {D} e {A,B} {D} tem o mesmo suporte e confiança Medidas de interessabilidade podem ser usadas para podar/ordenar os padrões derivados Na formulação original de regras de associação, suporte e confiança são únicas medidas usadas

33 !, Medidas de Interessabilidade Padrões Conhecimento Pós-processamento Dados Préprocessados Dados Selecionados Featur Featur e Featur e Featur e Featur Featur e Featur e e Featur e Featur e Featur e e Prod uct uct Prod uct Prod uct Prod uct Prod uct Prod Prod uct Prod uct Prod uct Prod uct Mineração Dados Pré-processamento Seleção

34 , Dada uma regra X Y, informação necessária para calcular medida de interessabilidade pode ser obtida de tabela de contingência Tabela de Contingência para X Y X X Y f 11 Y f 10 f 01 f 00 f o+ f +1 T f +0 f 1+ f 11 : suporte de X e Y f 10 : suporte de X e Y f 01 : suporte de X e Y f 00 : suporte de X e Y Usada para definir várias medidas suporte, confiança, lift, Gini, J-measure, etc.

35 + Coffee Coffee Tea Tea ()*+, - -*! -.!/012 -!/03 "-*$# -.!/0312

36 ! /#) População de 1000 estudantes 600 estudantes sabem nadar (S) 700 estudantes sabem andar de bicicleta (B) 420 estudantes sabem nadar e andar de bicicleta (S,B) P(S B) = 420/1000 = 0.42 P(S) P(B) = = 0.42 P(S B) = P(S) P(B) => Independência Estatística P(S B) > P(S) P(B) => Positivamente correlacionados P(S B) < P(S) P(B) => Negativamente correlacionados

37 , #) Medidas que levam em conta a dependência estatística )] ( )[1 ( )] ( )[1 ( ) ( ) ( ), ( ) ( ) ( ), ( ) ( ) ( ), ( ) ( ) ( Y P Y P X P X P Y P X P Y X P coefficient Y P X P Y X P PS Y P X P Y X P Interest Y P X Y P Lift = = = = φ

38 #"!01 Coffee Coffee Tea Tea ()*+, - -*! -.!/012 -!/03 4-! /0125/03!/067$8

39 + 0 2 Y Y Y Y X X X X Lift = = Lift = = (0.1)(0.1) (0.9)(0.9) Independência Estatística: Se P(X,Y) = P(X)P(Y) => Lift = 1

40 Há muitas medidas propostas na literatura Algumas medidas são boas para certas aplicações, mas não para outras Que critério deve-se usar para saber se uma medida é boa ou ruim? E a poda baseada no suporte no estilo Apriori? Como ela afeta estas medidas?

41 -,+, Medida Objetiva: Ordenar padrões baseado em estatísticas calculadas a partir dos dados e.g., 21 medidas de associação (suporte, confiança, Laplace, Gini, informação mútua, Jaccard, etc). Medida Subjetiva: Ordenar padrões de acordo com interpretação do usuário Um padrão é subjetivamente interessante se ele contradiz a expectativa de um usuário (Silberschatz & Tuzhilin) Um padrão é subjetivamente interessante se ela é utilizável (Silberschatz & Tuzhilin)

42 10,)3 Como aplicar a formulação de análise de associação a variáveis binárias não-assimétricas? Session Id Country Session Length (sec) Number of Web Pages viewed Gender Browser Type Buy 1 USA Male IE No 2 China Female Netscape No 3 USA Female Mozilla Yes 4 Germany Male IE Yes 5 Australia Male Mozilla No Exemplo de Regra de Associação: {Number of Pages [5,10) (Browser=Mozilla)} {Buy = No}

43 !,3 Transformar atributos categóricos em variáveis binárias assimétricas Introduzir um novo item para cada par atributovalor distinto Exemplo: substituir o atributo Browser Type por Browser Type = Internet Explorer Browser Type = Mozilla Browser Type = Mozilla

44 !,3 Questões potenciais Se o atributo tem muitos valores possíveis Exemplo: atributo país tem mais de 200 valores possíveis Muitos dos valores do atributo pode ter suporte muito baixo Solução potencial: Agregar valores de atributo de baixo suporte Se a distribuição dos valores do atributo é muito irregular Exemplo: 95% dos visitantes tem Buy = No Maioria dos itens será associada com o item (Buy=No) Solução potencial: abandonar os itens altamente freqüentes

45 !,) Diferentes tipos de regras: Age [21, 35) Salary [70k, 120k) Buy Salary [70k, 120k) Buy Age: µ = 28, σ = 4 Diferentes métodos: Baseados em discretização Baseados em estatística Baseados em não-discretização minapriori

46 !,) Usar discretização Não supervisionada: Faixa de igual largura Faixa de igual profundidade Agrupamento Supervisionada: Valores do atributo, v Classe v 1 v 2 v 3 v 4 v 5 v 6 v 7 v 8 v 9 Anomalous Normal faixa 1 faixa 2 faixa 3

47 4.,% Tamanho dos intervalos discretizados afeta suporte e confiança {Refund = No, (Income = $51,250)} {Cheat = No} {Refund = No, (60K Income 80K)} {Cheat = No} {Refund = No, (0K Income 1B)} {Cheat = No} Intervalos muito pequenos pode não ter suporte suficiente Intervalos muito grandes pode não ter confiança suficiente Solução potencial: usar todos intervalos possíveis

48 4.,% Tempo de execução Se intervalo contém n valores, há em média O(n 2 ) faixas possíveis Regras em demasia {Refund = No, (Income = $51,250)} {Cheat = No} {Refund = No, (51K Income 52K)} {Cheat = No} {Refund = No, (50K Income 60K)} {Cheat = No}

49 $, #) Exemplo: Browser=Mozilla Buy=Yes Age: µ = 23 Conseqüente da regra consiste de uma variável contínua, caracterizada pelas suas estatísticas média, mediana, desvio padrão, etc. Abordagem: Separa a variável meta do resto dos dados Aplicar geração de conjuntos de itens freqüentes sobre o resto dos dados Para cada conjunto de itens freqüentes, calcular a estatística descritiva para a correspondente variável meta Conjunto de itens freqüentes torna-se uma regra pela introdução da variável meta como conseqüente da regra Aplicar testes estatísticos para determinar a interessabilidade da regra

50 $, #) Como determinar se uma regra de associação é interessante? Comparar a estatística para segmento da população coberto pela regra versus segmento da população não coberto pela regra: A B: µ versus A B: µ Teste de hipótese estatístico: Hipótese nula: H0: µ = µ + Hipótese alternativa: H1: µ > µ + Z tem média zero e variância 1 sob a hipótese nula Z µ ' µ = 2 2 s1 s2 + n n 1 2

51 $, #) Exemplo: r: Browser = Mozilla Buy = Yes Age: µ = 23 Regra é interessante se diferença entre µ e µ é maior que 5 anos (i.e., = 5) Para r, suponha n 1 = 50, s 1 = 3.5 Para r (complemento): n 2 = 250, s 2 = 6.5 Z = µ ' µ s n s n = = 3.11 Para teste unilateral com nível de confiança de 95%, valor crítico de Z para rejeitar a hipótese nula é 1.64 Como Z é maior que 1.64, r é uma regra interessante

52 5)+ Food Electronics Bread Milk Computers Home Wheat White Skim 2% Desktop Laptop Accessory TV DVD Foremost Kemps Printer Scanner

53 5)+ Por quê incorporar o conceito de hierarquia? Regras de níveis inferiores podem não ter suporte suficiente para aparecer em conjuntos de itens freqüentes Regras em níveis inferiores da hierarquia são específicas em demasia e.g., skim milk white bread, 2% milk wheat bread, skim milk wheat bread, etc. são indicativos da associação entre milk e bread

54 5)+ Como suporte e confiança variam ao longo do conceito de hierarquia? Se X é o item pai tanto para X 1 e X 2, então σ(x) σ(x 1 ) + σ(x 2 ) Se σ(x 1 Y 1 ) minsup, e X é pai de X 1, Y é pai de Y 1 então σ(x Y 1 ) minsup, σ(x 1 Y) minsup σ(x Y) minsup Se conf(x 1 Y 1 ) minconf, então conf(x 1 Y) minconf

55 5)+ Abordagem 1: Estender a formulação de regras de associação atuais pelo aumento de cada transição com com itens de nível superior Transação Original: {skim milk, wheat bread} Transação Aumentada: {skim milk, wheat bread, milk, bread, food} Questões: Itens que residem em níveis superiores tem contagem de suporte muito mais elevados se o limiar do suporte é baixo, padrões freqüentes em demasia envolvendo itens de níveis superiores Dimensionalidade dos dados aumentada

56 5)+ Abordagem 2: Gerar padrões freqüentes no nível mais superior primeiramente Então, gerar padrões freqüentes no próximo nível mais superior e assim por diante Questões: Requisitos de I/O aumentam dramaticamente pois é preciso realizar mais passagens sobre os dados Pode perder alguns padrões de associação entre níveis potencialmente interessantes

57 - Base de Dados Seqüenciais Linha Temporal Objeto Timestamp Eventos A 10 2, 3, 5 A 20 6, 1 A 23 1 B 11 4, 5, 6 B 17 2 B 21 7, 8, 1, 2 B 28 1, 6 C 14 1, 8, 7 Objeto A: Objeto B: Objeto C: 1 7 8

58 #"! - Base de Dados Seqüenciais Seqüência Elemento (Transação) Evento (Item) Cliente História de compra de um dado cliente Conjunto de itens comprados por um cliente no momento t Livros, produtos diários, CDs, etc Dados da Web Atividade de um visitante particular na Web Uma coleção de arquivos vistos por um visitante após um único clique Home page, índice da página, informação de contato, etc Dados de Eventos História de eventos gerados por um dado sensor Eventos disparados por um sensor no momento t Tipos de alarmes gerados pelos sensores Seqüência Genômica Seqüência de DNA de um tipo particular Um elemento da seqüência de DNA Bases A,T,G,C *+ 9:; '

59 -/ Uma seqüência é uma lista ordenada de elementos (transações) s = < e 1 e 2 e 3 > Cada elemento contém uma coleção de eventos (itens) e i = {i 1, i 2,, i k } Cada elemento é atribuído a um tempo ou a um local específico Comprimento de uma seqüência, s, é dado pelo número de elementos da seqüência Uma k-seqüência é uma seqüência que contém k eventos (itens)

60 #"! -/ Seqüência Web: < {Homepage} {Electronics} {Digital Cameras} {Canon Digital Camera} {Shopping Cart} {Order Confirmation} {Return to Shopping} > Seqüência de eventos iniciadores causando um acidente nuclear em 3-mile Island: ( < {clogged resin} {outlet valve closure} {loss of feedwater} {condenser polisher outlet valve shut} {booster pumps trip} {main waterpump trips} {main turbine trips} {reactor pressure increases}> Seqüência de livros devolvidos na biblioteca: <{Fellowship of the Ring} {The Two Towers} {Return of the King}>

61 -,/ Uma seqüência <a 1 a 2 a n > está contida em outra seqüência <b 1 b 2 b m > (mn) se existem inteiros i 1 < i 2 < < i n tal que a 1 b i1, a 2 b i1,, a n b in Seqüência de Dados < {2,4} {3,5,6} {8} > < {1,2} {3,4} > < {2,4} {2,4} {2,5} > Subseqüência < {2} {3,5} > < {1} {2} > < {2} {4} > Contém? Sim Não Sim O suporte de uma subseqüência w é definido como a fração de dados seqüenciais que contém w Um padrão seqüencial é uma subseqüência freqüente (i.e., uma subseqüência cujo suporte éminsup)

62 (.- Dados: Uma base de dados de seqüências Um limiar de suporte mínimo especificado pelo usuário, minsup Tarefa: Encontrar todas as subseqüências com suporte minsup

63 (.- Dada uma seqüência: <{a b} {c d e} {f} {g h i}> Exemplos de subseqüências: <{a} {c d} {f} {g} >, < {c d e} >, < {b} {g} >, etc. Quantas k-subseqüências podem ser extraídas de uma dada n-seqüência? <{a b} {c d e} {f} {g h i}> n = 9 k=4: Y Y Y _ Y <{a} {d e} {i}> Resposta : n 9 = k 4 = 126

64 (.-#"! Objeto Timestamp Eventos A 1 1,2,4 A 2 2,3 A 3 5 B 1 1,2 B 2 2,3,4 C 1 1, 2 C 2 2,3,4 C 3 2,4,5 D 1 2 D 2 3, 4 D 3 4, 5 E 1 1, 3 E 2 2, 4, 5 Minsup = 50% Exemplos de Subseqüências Freqüentes: < {1,2} > s=60% < {2,3} > s=60% < {2,4}> s=80% < {3} {5}> s=80% < {1} {2} > s=80% < {2} {2} > s=60% < {1} {2,3} > s=60% < {2} {2,3} > s=60% < {1,2} {2,3} > s=60%

65 #" (.- Dados n eventos: i 1, i 2, i 3,, i n 1-subseqüências candidatas: <{i 1 }>, <{i 2 }>, <{i 3 }>,, <{i n }> 2-subseqüências candidatas: <{i 1, i 2 }>, <{i 1, i 3 }>,, <{i 1 } {i 1 }>, <{i 1 } {i 2 }>,, <{i n-1 } {i n }> 3-subseqüências candidatas: <{i 1, i 2, i 3 }>, <{i 1, i 2, i 4 }>,, <{i 1, i 2 } {i 1 }>, <{i 1, i 2 } {i 2 }>,, <{i 1 } {i 1, i 2 }>, <{i 1 } {i 1, i 3 }>,, <{i 1 } {i 1 } {i 1 }>, <{i 1 } {i 1 } {i 2 }>,

66 % -( 6-(7 Passo 1: Realizar primeira passagem sobre a base de dados de seqüências D para obter todas as seqüências freqüentes de 1-elemento Passo 2: Repetir até não encontrar novas seqüências freqüentes Geração de Candidatos: Unir pares de subseqüências freqüentes encontradas no (k-1)-ésimo passo para gerar seqüências candidatas que contém k itens Poda de Candidatos: Podar k-seqüências de candidatos que contém (k-1)-subseqüências não freqüentes Contagem de Suporte: Fazer nova passagem sobre a base de dados de seqüência D para encontrar o suporte para estas seqüências candidatas Eliminação de Candidatos: Eliminar k-seqüências candidatas cujo suporte atual é menor que minsup

67 Caso base (k=2): Unir duas 1-seqüência freqüentes <{i 1 }> e <{i 2 }> produzirá duas 2- seqüências candidatas: <{i 1 } {i 2 }> e <{i 1 i 2 }> Caso geral (k>2): Uma (k-1)-seqüência freqüente w 1 é unida com outra (k-1)- seqüência freqüente w 2 para produzir uma k-seqüência candidata se a subseqüência obtida pela remoção do primeiro evento em w 1 é a mesma que a subseqüência obtida pela remoção do último evento em w 2 O candidato resultante após união é dado pela seqüência w 1 estendida com o último evento de w 2. Se os dois últimos eventos em w 2 pertencem ao mesmo elemento, então o último evento em w 2 torna-se parte do último elemento em w 1 Caso contrário, o último evento em w 2 torna-se um elemento separado adicionado ao final de w 1

68 #"! Unindo as seqüências w 1 =<{1} {2 3} {4}> e w 2 =<{2 3} {4 5}> produzirá a seqüência candidata < {1} {2 3} {4 5}> pois os dois últimos eventos em w 2 (4 e 5) pertencem ao mesmo elemento Unindo as seqüências w 1 =<{1} {2 3} {4}> e w 2 =<{2 3} {4} {5}> produzirá a seqüência candidata < {1} {2 3} {4} {5}> pois os dois últimos eventos em w 2 (4 e 5) não pertencem ao mesmo elemento Não é necessário unir as seqüências w 1 =<{1} {2 6} {4}> e w 2 =<{1} {2} {4 5}> para produzir o candidato < {1} {2 6} {4 5}> pois se este último é um candidato viável, então ele pode ser obtido unindo w 1 com < {1} {2 6} {5}>

69 #"!-( 3-seqüências freqüentes < {1} {2} {3} > < {1} {2 5} > < {1} {5} {3} > < {2} {3} {4} > < {2 5} {3} > < {3} {4} {5} > < {5} {3 4} > Geração de Candidatos < {1} {2} {3} {4} > < {1} {2 5} {3} > < {1} {5} {3 4} > < {2} {3} {4} {5} > < {2 5} {3 4} > Poda de Candidatos < {1} {2 5} {3} >

70 .!67 {A B} {C} {D E} <= x g >n g x g : max-gap n g : min-gap <= m s m s : maximum span x g = 2, n g = 0, m s = 4 Seqüência de Dados < {2,4} {3,5,6} {4,7} {4,5} {8} > < {1} {2} {3} {4} {5}> < {1} {2,3} {3,4} {4,5}> < {1,2} {3} {2,3} {3,4} {2,4} {4,5}> Subseqüência < {6} {5} > < {1} {4} > < {2} {3} {5} > < {1,2} {5} > Contém? Sim Não Sim Não

71 (.-.! Abordagem 1: Minerar padrões seqüenciais sem restrições temporais Pós-processar os padrões descobertos Abordagem 2: Modificar GSP para podar diretamente candidatos que violam restrições temporais Questão: O princípio Apriori continua válido?

72 ()!!! - Objeto Timestamp Eventos A 1 1,2,4 A 2 2,3 A 3 5 B 1 1,2 B 2 2,3,4 C 1 1, 2 C 2 2,3,4 C 3 2,4,5 D 1 2 D 2 3, 4 D 3 4, 5 E 1 1, 3 E 2 2, 4, 5 Suponha: x g = 1 (max-gap) n g = 0 (min-gap) m s = 5 (maximum span) minsup = 60% <{2} {5}> suporte = 40% mas <{2} {3} {5}> suporte = 60% Existe problema devido à restrição max-gap Sem problema se max-gap é infinito

73 -,/) s é uma subseqüência contígua de w = <e 1 >< e 2 > < e k > se qualquer destas condições acontecer: 1. s é obtida de w deletando um item de e 1 ou de e k 2. s é obtida de w deletando um item de qualquer elemento e i que contém mais de 2 itens 3. s é uma subseqüência contígua de s e s é uma subseqüência contígua de w (definição recursiva) Exemplos: s = < {1} {2} > é uma subseqüência contígua de < {1} {2 3}>, < {1 2} {2} {3}>, e < {3 4} {1 2} {2 3} {4} > não é uma subseqüência contígua de < {1} {3} {2}> e < {2} {1} {3} {2}>

74 ( ( Sem restrição maxgap: Uma k-seqüência candidata é podada se pelo menos uma de suas (k-1)-subseqüências não é freqüente Com restrição maxgap: Uma k-seqüencia candidata é podada se pelo menos uma de suas (k-1)-subseqüências contíguas não é freqüente

75 .!67 {A B} {C} {D E} <= x g >n g <= ws <= m s x g : max-gap n g : min-gap ws: window size m s : maximum span x g = 2, n g = 0, ws = 1, m s = 5 Seqüência de Dados < {2,4} {3,5,6} {4,7} {4,6} {8} > < {1} {2} {3} {4} {5}> < {1,2} {2,3} {3,4} {4,5}> Subseqüência < {3} {5} > < {1,2} {3} > < {1,2} {3,4} > Contém? Não Sim Sim

76 ( -! Dado um padrão candidato: <{a, c}> Qualquer seqüência de dados que contém < {a c} >, < {a} {c} > ( em que time({c}) time({a}) ws) < {c} {a} > (em que time({a}) time({c}) ws) contribuirá para a contagem do suporte do padrão candidato

77 8 Em alguns domínios, pode-se ter somente uma série temporal muito longa Exemplo: monitoramento de eventos de tráfego de rede para ataques monitoramento de sinais de alarme de telecomunicação Objetivo é encontrar seqüências freqüentes de eventos na série temporal Este problema também é conhecido como mineração de episódios freqüentes E1 E3 E1 E1 E2 E4 E1 E2 E1 E2 E4 E2 E3 E4 E2 E3 E5 E2 E3 E5 E2 E3 E1 Padrão: <E1> <E3>

78 # -! Linha Temporal do Objeto p p p p p q q q q q Seqüência: (p) (q) Método Contagem do Suporte COBJ 1 CWIN 6 CMINWIN 4 Assume: x g = 2 (max-gap) n g = 0 (min-gap) ws = 0 (tamanho janela) m s = 2 (maximum span) CDIST_O 8 CDIST 5

Exemplo: vendas casadas Sei que quem compra A também compra B. Mineração de Dados. Técnicas de Associação. prof. Luis Otavio Alvares

Exemplo: vendas casadas Sei que quem compra A também compra B. Mineração de Dados. Técnicas de Associação. prof. Luis Otavio Alvares Mineração de Dados Técnicas de Associação Exemplo: vendas casadas Sei que quem compra A também compra B. Apresentação adaptada do material do livro: Introduction to Data Mining Tan, Steinbach e Kumar PRODUTO

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 14 Regras de Associação Max Pereira Regras de Associação Motivação O que é geralmente comprado junto com o produto x? Que pares de produtos são comprados juntos?

Leia mais

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Análise de Associação. Mineração de Regras de Associação

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Análise de Associação. Mineração de Regras de Associação SCC0173 Mineração de Dados Biológicos Mineração de Regras de Associação Prof. Ricardo J. G. B. Campello Créditos Parte deste material consiste de adaptações e extensões dos originais: gentilmente cedidos

Leia mais

Regras de Associação. José Augusto Baranauskas Departamento de Física e Matemática FFCLRP-USP

Regras de Associação. José Augusto Baranauskas Departamento de Física e Matemática FFCLRP-USP Regras de Associação A compra de um produto quando um outro produto é comprado representa uma Regra de Associação Regras de Associação são frequentemente utilizadas para apoiar campanhas de marketing e

Leia mais

Mineração de itemsets e regras de associação

Mineração de itemsets e regras de associação Mineração de itemsets e regras de associação Marcelo K. Albertini 3 de Novembro de 2015 2/46 Conteúdo Regras de associação A-priori FP-Tree 3/46 Análise de cestas de compras Uma cadeia de supermercados

Leia mais

UFRJ - CCMN - IM - Departamento de Métodos Estatísticos Planejamento de Experimentos - P2 Turma: MAA

UFRJ - CCMN - IM - Departamento de Métodos Estatísticos Planejamento de Experimentos - P2 Turma: MAA UFRJ - CCMN - IM - Departamento de Métodos Estatísticos Planejamento de Experimentos - P2 Turma: MAA 18-06-2012 1. (Montgomery e Runger) Quatro fatores influenciam o sabor de um refrigerante, a saber,

Leia mais

Regras de Associação. Roteiro da Aula. Exemplos de perguntas a responder. Motivação e Relevância. Motivação e relevância. Regras de associação:

Regras de Associação. Roteiro da Aula. Exemplos de perguntas a responder. Motivação e Relevância. Motivação e relevância. Regras de associação: Roteiro da Aula Regras de Associação Stanley Robson de M. Oliveira Motivação e relevância. Regras de associação: Definição e exemplos; Conceitos básicos. Geração de regras de associação: Complexidade Problemas

Leia mais

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os

Leia mais

Sarajane M. Peres e Clodoaldo A. M. Lima. 19 de novembro de 2015

Sarajane M. Peres e Clodoaldo A. M. Lima. 19 de novembro de 2015 Sarajane M. Peres e Clodoaldo A. M. Lima 19 de novembro de 2015 Material baseado em: HAN, J. & KAMBER, M. Data Mining: Concepts and Techniques. 2nd. 2006 Sarajane M. Peres e Clodoaldo A. M. Lima Regras

Leia mais

Cálculo Combinatório

Cálculo Combinatório Cálculo Combinatório Introdução Foi a necessidade de calcular o número de possibilidades existentes nos chamados jogos de azar que levou ao desenvolvimento da Análise Combinatória, parte da Matemática

Leia mais

PPGCA/UTFPR câmpus Curitiba -- CAIA003 - Mineração de Dados -- Profs. Celso Kaestner e Heitor Lopes Trabalho #2 Regras de Associação

PPGCA/UTFPR câmpus Curitiba -- CAIA003 - Mineração de Dados -- Profs. Celso Kaestner e Heitor Lopes Trabalho #2 Regras de Associação UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ (UTFPR) Mineração de Dados 2016/3 Professores Celso e Heitor Jean Avila Rangel 1801317 - PPGCA PPGCA/UTFPR câmpus Curitiba -- CAIA003 - Mineração de Dados --

Leia mais

9. Experimentos Fatoriais Confundidos em Blocos. Algumas vezes a aleatorização completa fica restringida.

9. Experimentos Fatoriais Confundidos em Blocos. Algumas vezes a aleatorização completa fica restringida. 9. Experimentos Fatoriais Confundidos em Blocos Algumas vezes a aleatorização completa fica restringida. Por exemplos, talvez não seja possível rodar todos os ensaios: No mesmo dia; Na mesma sala; Com

Leia mais

Curso de Data Mining. Sandra de Amo. Aula 18 - Mineração de padrões em caminhos percorridos por usuários da Internet

Curso de Data Mining. Sandra de Amo. Aula 18 - Mineração de padrões em caminhos percorridos por usuários da Internet Curso de Data Mining Sandra de Amo Aula 18 - Mineração de padrões em caminhos percorridos por usuários da Internet Nesta aula vamos tratar do problema de mineração de caminhos percorridos por usuários

Leia mais

KDD, Mineração de Dados e Algoritmo Apriori

KDD, Mineração de Dados e Algoritmo Apriori Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC KDD, Mineração de Dados e Algoritmo Apriori Aluno: Rodrigo Moura J.

Leia mais

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU Aula 6 Mineração Streams Representação dos Dados Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof. Andre C. P. L. F. Carvalho Agradecimentos

Leia mais

Experimentos Fatoriais 2 k Fracionados II

Experimentos Fatoriais 2 k Fracionados II Experimentos Fatoriais 2 k Fracionados II ESALQ/USP 29/09/2016 (ESALQ/USP) Experimentos Fatoriais 2 k Fracionados II 29/09/2016 1 / 35 Um quarto do fatorial completo (Fatorial fracionado 2 k 2 ) Quando

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos

Leia mais

CE001 - BIOESTATÍSTICA TESTE DO QUI-QUADRADO

CE001 - BIOESTATÍSTICA TESTE DO QUI-QUADRADO CE001 - BIOESTATÍSTICA TESTE DO QUI-QUADRADO Ana Paula Araujo Correa Eder Queiroz Newton Trevisan DEFINIÇÃO É um teste de hipóteses que se destina a encontrar um valor da dispersão para duas variáveis

Leia mais

UNIVERSIDADE DE MOGI DAS CRUZES - UMC COMISSÃO PRÓPRIA DE AVALIAÇÃO CPA

UNIVERSIDADE DE MOGI DAS CRUZES - UMC COMISSÃO PRÓPRIA DE AVALIAÇÃO CPA UNIVERSIDADE DE MOGI DAS CRUZES - UMC COMISSÃO PRÓPRIA DE AVALIAÇÃO CPA PROJETO: PERFIL DOS ALUNOS DOS CURSOS DE GRADUAÇÃO DA UNIVERSIDADE DE MOGI DAS CRUZES UMC RELATÓRIO 2011 I. Apresentação O projeto

Leia mais

Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas

Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas Processamento e Otimização de Consultas Banco de Dados Motivação Consulta pode ter sua resposta computada por uma variedade de métodos (geralmente) Usuário (programador) sugere uma estratégia para achar

Leia mais

Apostila 01 Fundamentação da Teoria da Computação e Linguagens Formais

Apostila 01 Fundamentação da Teoria da Computação e Linguagens Formais Cursos: Bacharelado em Ciência da Computação e Bacharelado em Sistemas de Informação Disciplinas: (1493A) Teoria da Computação e Linguagens Formais, (4623A) Teoria da Computação e Linguagens Formais e

Leia mais

Associação entre variáveis categóricas e IC95%

Associação entre variáveis categóricas e IC95% Associação entre variáveis categóricas e IC95% Andréa Homsi Dâmaso Programa de pós-graduação em Epidemiologia UFPEL Biotecnologia: Bioestatística e Delineamento Experimental Aula de hoje Teste do qui-quadrado

Leia mais

Sistemas Digitais Minimização de Funções: Mapas de Karnaugh

Sistemas Digitais Minimização de Funções: Mapas de Karnaugh Sistemas Digitais Minimização de Funções: Mapas de Karnaugh João Paulo Baptista de Carvalho (Prof. Auxiliar do IST) [email protected] Minimização de uma Função Trata-se de obter a expressão mínima

Leia mais

CM127 - Lista 3. Axioma da Paralelas e Quadriláteros Notáveis. 1. Faça todos os exercícios dados em aula.

CM127 - Lista 3. Axioma da Paralelas e Quadriláteros Notáveis. 1. Faça todos os exercícios dados em aula. CM127 - Lista 3 Axioma da Paralelas e Quadriláteros Notáveis 1. Faça todos os exercícios dados em aula. 2. Determine as medidas x e y dos ângulos dos triângulos nos itens abaixo 3. Dizemos que um triângulo

Leia mais

8 o ano/7 a série E.F.

8 o ano/7 a série E.F. Módulo de Equações e Sistemas de Equações Fracionárias Equações Fracionárias 8 o ano/7 a série EF Equações e Sistemas de Equações Fracionárias Equações Fracionárias Eercícios Introdutórios Eercício Eercício

Leia mais

S É R I E : E s t a t í s t i c a B á s i c a T e x t o 2 : A M O S T R A G E M SUMÁRIO AMOSTRAGEM 3 1. CONCEITOS BÁSICOS 3

S É R I E : E s t a t í s t i c a B á s i c a T e x t o 2 : A M O S T R A G E M SUMÁRIO AMOSTRAGEM 3 1. CONCEITOS BÁSICOS 3 SUMÁRIO AMOSTRAGEM 3 1. CONCEITOS BÁSICOS 3 2. DISTRIBUIÇÃO AMOSTRAL DOS ESTIMADORES 7 2.1. Distribuição amostral da média 7 2.1.1. Amostragem com reposição 7 2.1.2. Amostragem sem reposição 8 2.2. Distribuição

Leia mais

Planejamento de Experimentos

Planejamento de Experimentos Planejamento de Experimentos 1 6.4 Os Modelos fatoriais 2 k : o caso geral. O modelo estatístico para um plano 2 k inclui k ( k 2 ( k ) ) efeitos principais efeitos de interação de ordem 2 efeitos de interação

Leia mais

Árvores. Fabio Gagliardi Cozman. PMR2300 Escola Politécnica da Universidade de São Paulo

Árvores. Fabio Gagliardi Cozman. PMR2300 Escola Politécnica da Universidade de São Paulo PMR2300 Escola Politécnica da Universidade de São Paulo Árvore: estrutura composta por nós e arestas entre nós. As arestas são direcionadas ( setas ) e: um nó (e apenas um) é a raiz; todo nó (exceto a

Leia mais

Recursividade, Tentativa e Erro

Recursividade, Tentativa e Erro Recursividade, Tentativa e Erro Túlio Toffolo www.toffolo.com.br Marco Antônio Carvalho [email protected] BCC402 Aula 07 Algoritmos e Programação Avançada Na aula anterior Prova 2 Na aula de hoje Técnicas

Leia mais

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Introdução. Classificação III: Árvores de Decisão

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Introdução. Classificação III: Árvores de Decisão SCC073 Mineração de Dados Biológicos Classificação III: Árvores de Decisão Créditos O material a seguir consiste de adaptações e extensões dos originais: gentilmente cedidos pelo Prof. André C. P. L. F.

Leia mais

Capítulo II Álgebra Booleana e Minimização Lógica

Capítulo II Álgebra Booleana e Minimização Lógica Capítulo II Álgebra Booleana e Minimização Lógica 1 Introdução Vimos no Capítulo I que a unidade básica construtiva de um sistema digital é a Porta Lógica e que Funções Lógicas com diversas variáveis de

Leia mais

Mat. Semana. Professor: Luanna Ramos, Alex Amaral, Gabriel Miranda Monitor: Gabriella Teles Roberta Teixeira Rodrigo Molinari

Mat. Semana. Professor: Luanna Ramos, Alex Amaral, Gabriel Miranda Monitor: Gabriella Teles Roberta Teixeira Rodrigo Molinari Semana 1 Professor: Luanna Ramos, Alex Amaral, Gabriel Miranda Monitor: Gabriella Teles Roberta Teixeira Rodrigo Molinari Conjuntos 12 jul RESUMO Apesar de não haver uma definição formal para conjuntos,

Leia mais

Árvores. Thiago Martins, Fabio Gagliardi Cozman. PMR2300 / PMR3201 Escola Politécnica da Universidade de São Paulo

Árvores. Thiago Martins, Fabio Gagliardi Cozman. PMR2300 / PMR3201 Escola Politécnica da Universidade de São Paulo PMR2300 / PMR3201 Escola Politécnica da Universidade de São Paulo Árvore: estrutura composta por nós e arestas entre nós. As arestas são direcionadas ( setas ) e: um nó (e apenas um) é a raiz; todo nó

Leia mais

Técnicas Digitais para Computação

Técnicas Digitais para Computação INF 8 Técnicas Digitais para Computação Minimização de Funções Booleanas Aula Técnicas Digitais. Mapas de Karnaugh com 2 variáveis Diagrama onde cada célula corresponde a um mintermo Exemplo com 2 variáveis

Leia mais

Matemática & Raciocínio Lógico

Matemática & Raciocínio Lógico Matemática & Raciocínio Lógico para concursos Prof. Me. Jamur Silveira www.professorjamur.com.br facebook: Professor Jamur PROBABILIDADE No estudo das probabilidades estamos interessados em estudar o experimento

Leia mais

SISTEMAS DIGITAIS MINIMIZAÇÃO DE FUNÇÕES BOOLEANAS

SISTEMAS DIGITAIS MINIMIZAÇÃO DE FUNÇÕES BOOLEANAS MINIMIZAÇÃO DE FUNÇÕES BOOLEANAS Outubro de MINIMIZAÇÃO DE FUNÇÕES BOOLEANAS - 2 SUMÁRIO: MINIMIZAÇÃO ALGÉBRICA MINIMIZAÇÃO DE KARNAUGH REPRESENTAÇÃO DE FUNÇÕES DE N VARIÁVEIS QUADROS DE 3 e 4 VARIÁVEIS

Leia mais

Planejamento e Otimização de Experimentos

Planejamento e Otimização de Experimentos Planejamento e Otimização de Experimentos Planejamentos Fatoriais 2 Prof. Dr. Anselmo E de Oliveira anselmo.quimica.ufg.br [email protected] Planejamento Fatorial Fracionário k fatores 2 k

Leia mais

Modelagem Conceitual e o Modelo Entidade-Relacionamento

Modelagem Conceitual e o Modelo Entidade-Relacionamento o Modelo Entidade-Relacionamento Gerenciamento de Dados e Informação Fernando Fonseca & Robson Fidalgo 1 Modelagem Transformar aspectos do mundo real em um modelo de dados formal Modelagem Conceitual Modelo

Leia mais

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza Inferência 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média Renata Souza Aspectos Gerais A estatística descritiva tem por objetivo resumir ou descrever características importantes

Leia mais

SEL-0339 Introdução à Visão Computacional. Aula 5 Segmentação de Imagens

SEL-0339 Introdução à Visão Computacional. Aula 5 Segmentação de Imagens Departamento de Engenharia Elétrica - EESC-USP SEL-0339 Introdução à Visão Computacional Aula 5 Segmentação de Imagens Prof. Dr. Marcelo Andrade da Costa Vieira Prof. Dr. Adilson Gonzaga Segmentação de

Leia mais

Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães.

Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães. Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães. O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise de dados e algoritmos

Leia mais

Usando estas propriedades, provamos que:

Usando estas propriedades, provamos que: Áreas de Polígonos Função área Uma função área é uma função que a cada região delimitada por um polígono, associa um número real com as seguintes propriedades: Regiões delimitada por polígonos congruentes

Leia mais

Planejamento de Experimentos. 8. Experimentos Fatoriais Fracionários 2 k

Planejamento de Experimentos. 8. Experimentos Fatoriais Fracionários 2 k Planejamento de Experimentos 8. Experimentos Fatoriais Fracionários 2 k 1 Exemplo 8.5: Suponha um experimento para o qual há sete fatores a serem investigados. O interesse está na estimação dos efeitos

Leia mais

SCC0173 Mineração de Dados Biológicos

SCC0173 Mineração de Dados Biológicos SCC073 Mineração de Dados Biológicos Análise Exploratória de Dados Parte A: Revisão de Estatística Descritiva Elementar Prof. Ricardo J. G. B. Campello SCC / ICMC / USP Tópicos Análise Exploratória de

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Sistemas de Informação Inteligente Prof. Leandro C. Fernandes Adaptação dos materiais de: Thiago A. S. Pardo, Daniel Honorato e Bianca Zadrozny APRENDIZADO SIMBÓLICO: ÁRVORES DE

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina André C. P. L. F. de Carvalho Posdoutorando: Isvani Frias-Blanco ICMC-USP Agrupamento de dados Tópicos Agrupamento de dados Dificuldades em agrupamento Algoritmos de agrupamento

Leia mais

Módulo de Elementos básicos de geometria plana. Condição de alinhamentos de três pontos e a desigualdade triangular. Oitavo Ano

Módulo de Elementos básicos de geometria plana. Condição de alinhamentos de três pontos e a desigualdade triangular. Oitavo Ano Módulo de Elementos básicos de geometria plana Condição de alinhamentos de três pontos e a desigualdade triangular Oitavo Ano Condição de alinhamentos de três pontos e a desigualdade triangular Exercícios

Leia mais

lnteligência Artificial Introdução ao Processo Decisório de Markov

lnteligência Artificial Introdução ao Processo Decisório de Markov lnteligência Artificial Introdução ao Processo Decisório de Markov Aprendizado - paradigmas Aprendizado supervisionado O crítico comunica a EA o erro relativo entre a ação que deve ser tomada idealmente

Leia mais

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão Linear Simples - Análise de Resíduos 1 Modelos de Regressão Linear Simples - Análise de Resíduos Erica Castilho Rodrigues 27 de Setembro de 2016 2 3 O modelo de regressão linear é dado por 3 O modelo de regressão linear é dado por Y i = β

Leia mais

Sistema de mineração de dados para descoberta de padrões em dados médicos

Sistema de mineração de dados para descoberta de padrões em dados médicos Sistema de mineração de dados para descoberta de padrões em dados médicos Matheus Felipe MIRANDA¹; Marcos Roberto RIBEIRO² ¹ Estudante do curso de Tecnologia em Análise e Desenvolvimento de Sistemas e

Leia mais

Minerando regras de associação

Minerando regras de associação Minerando regras de associação Proposto por Rakesh Agrawal em 1993. É o modelo de mineração de dados mais estudado pela comunidade de banco de dados. Utiliza dados categóricos. Não há bons algoritmos para

Leia mais

DESENVOLVIMENTO DE UM ALGORITMO PARA REDUÇÃO DE ERROS EM MAPAS DE RENDIMENTO OBTIDOS EM AGRICULTURA DE PRECISÃO

DESENVOLVIMENTO DE UM ALGORITMO PARA REDUÇÃO DE ERROS EM MAPAS DE RENDIMENTO OBTIDOS EM AGRICULTURA DE PRECISÃO DESENVOLVIMENTO DE UM ALGORITMO PARA REDUÇÃO DE ERROS EM MAPAS DE RENDIMENTO OBTIDOS EM AGRICULTURA DE PRECISÃO Aluno: Leandro M. Gimenez Orientador: Prof. Dr. José Paulo Molin INTRODUÇÃO A geração de

Leia mais

Algoritmos de pesquisa. Tabelas de dispersão/hash

Algoritmos de pesquisa. Tabelas de dispersão/hash Algoritmos de pesquisa Tabelas de dispersão/hash Introdução Motivação: Considerar o problema de pesquisar um determinado valor num vetor. Se o vetor não está ordenado, a pesquisa requer O(n) de complexidade.

Leia mais

Se o símbolo inicial não fizer parte do conjunto de símbolos férteis, a linguagem gerada pela gramática é vazia.

Se o símbolo inicial não fizer parte do conjunto de símbolos férteis, a linguagem gerada pela gramática é vazia. Transformações em G.L.C Uma vez que existem métodos de análise, cada qual exigindo gramáticas com características específicas é importante que uma gramática possa ser transformada, porém, sem perder a

Leia mais

Arranjos. Claudio Esperança Paulo Roma LCG/UFRJ. All rights reserved.

Arranjos. Claudio Esperança Paulo Roma LCG/UFRJ. All rights reserved. Arranjos Claudio Esperança Paulo Roma 1 Arranjos Arranjos de retas e planos são a terceira estrutura em importância em GC. Arranjos de retas são coleções de retas infinitas distribuídas no plano. Arranjos

Leia mais

Estudo de Triângulos - Teorema de Menelaus e Relação de Stewart. 9 ano E.F. Professores Cleber Assis e Tiago Miranda

Estudo de Triângulos - Teorema de Menelaus e Relação de Stewart. 9 ano E.F. Professores Cleber Assis e Tiago Miranda Estudo de Triângulos - Teorema de Menelaus e Relação de Stewart Relação de Stewart 9 ano E.F. Professores Cleber Assis e Tiago Miranda Estudo de Triângulos - Teorema de Menelaus e Relação de Stewart Relação

Leia mais

GAAL: Exercícios 1, umas soluções

GAAL: Exercícios 1, umas soluções GAAL: Exercícios 1, umas soluções 1. Determine o ponto C tal que AC = 2 AB, sendo A = (0, 2), B = (1, 0). R: Queremos C tal que AC = 2 AB. Temos AB = (1 0, 0 ( 2)) = (1, 2), logo 2 AB = (2, 4). Então queremos

Leia mais

Metodologia Aplicada a Computação.

Metodologia Aplicada a Computação. Metodologia Aplicada a Computação [email protected] Pré-processamento de dados Técnicas utilizadas para melhorar a qualidade dos dados; Eliminam ou minimizam os problemas como ruídos, valores incorretos,

Leia mais

Consultas por Similaridade em Domínios de Dados Complexos

Consultas por Similaridade em Domínios de Dados Complexos Consultas por Similaridade em Domínios de Dados Complexos Guilherme Felipe Zabot Orientador: Profº Dr Caetano Traina Jr Roteiro Objetivo Introdução Dados Complexos Representação de Dados Complexos Extração

Leia mais

1 Experimento Aleatório 2 - Espaço Amostral 3 Eventos Mutuamentes Exclusivos 4 Experimentos de Contagem. Francisco Cysneiros

1 Experimento Aleatório 2 - Espaço Amostral 3 Eventos Mutuamentes Exclusivos 4 Experimentos de Contagem. Francisco Cysneiros Probabilidade bilid d 1 Experimento leatório 2 - Espaço mostral 3 Eventos Mutuamentes Exclusivos 4 Experimentos de Contagem Francisco Cysneiros Introdução Se tomarmos um determinado sólido, sabemos que

Leia mais

Mineração de Dados em Biologia Molecular

Mineração de Dados em Biologia Molecular Mineração de Dados em Biologia Molecular André C. P. L. F. de Carvalho Monitor: Valéria Carvalho Agrupamento de Dados Tópicos Agrupamento de dados Análise de cluster Dificuldades em agrupamento Algoritmos

Leia mais

MESTRADO PROFISSIONAL EM MATEMÁTICA EM REDE NACIONAL. ENQ Gabarito

MESTRADO PROFISSIONAL EM MATEMÁTICA EM REDE NACIONAL. ENQ Gabarito MESTRADO PROFISSIONAL EM MATEMÁTICA EM REDE NACIONAL ENQ 2017.1 Gabarito Questão 01 [ 1,25 ] Determine as equações das duas retas tangentes à parábola de equação y = x 2 2x + 4 que passam pelo ponto (2,

Leia mais

Aula 13: Regras de Associação. Rafael Izbicki

Aula 13: Regras de Associação. Rafael Izbicki Mineração de Dados Aula 13: Regras de Associação Rafael Izbicki 1 / 6 O Problema Imagine que temos um banco de dados em que cada linha representa a ida de uma pessoa a um supermercado, e cada coluna representa

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Engenharia Elétrica Universidade Federal do Paraná (UFPR) ÁRVORES DE DECISÃO Plano de Aula Introdução Representação de Árvores

Leia mais

Sistemas Digitais (SD) Minimização de Funções Booleanas

Sistemas Digitais (SD) Minimização de Funções Booleanas Sistemas Digitais (SD) Minimização de Funções Booleanas Aula Anterior n Na aula anterior: u Funções lógicas: l Circuitos com portas NAND (revisão); l Circuitos com portas NOR (revisão); u Representações

Leia mais