CRM e Prospecção de Dados



Documentos relacionados
CRM e Prospecção de Dados

CRM e Prospecção de Dados

CRM e Prospecção de Dados

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

Aula 5 - Matemática (Gestão e Marketing)

Lógica e Raciocínio. Decisão sob Risco Probabilidade. Universidade da Madeira.

CRM e Prospecção de Dados

Lista de Exercícios Tratamento de Incerteza baseado em Probabilidade

A MATEMÁTICA NO ENSINO SUPERIOR POLICIAL 1

GERAÇÃO DE VIAGENS. 1.Introdução

Gerenciamento de Riscos do Projeto Eventos Adversos

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

ESCOLA SECUNDÁRIA MANUEL DA FONSECA, SANTIAGO DO CACÉM GRUPO DISCIPLINAR: 500 Matemática Aplicada às Ciências Sociais

Conceitos Fundamentais

Algoritmos Indutores de Árvores de

INF 1771 Inteligência Artificial


Análise bioestatística em fumantes dinamarqueses associado

Definição. A expressão M(x,y) dx + N(x,y)dy é chamada de diferencial exata se existe uma função f(x,y) tal que f x (x,y)=m(x,y) e f y (x,y)=n(x,y).

Vetores Aleatórios, correlação e conjuntas

A ideia de coordenatização (2/2)

ASSOCIAÇÃO ENTRE PRESENÇA DE CÂNCER DE ESÔFAGO COMPARADA COM HÁBITO DE FUMAR E IDADE EM INDIVÍDUOS DA DINAMARCA

Introdução à genética quantitativa usando os recursos do R

Inferências Geográfica: Inferência Bayesiana Processo Analítico Hierárquico Classificação contínua

TÉCNICAS EXPERIMENTAIS APLICADAS EM CIÊNCIA DO SOLO

Aula 05 Raciocínio Lógico p/ INSS - Técnico do Seguro Social - Com Videoaulas

Instrução de Trabalho Registro de chamado no sistema OCOMON

4.2 Modelação da estrutura interna

Cláudio Tadeu Cristino 1. Julho, 2014

Auto-energia do elétron

ESPAÇOS QUOCIENTES DANIEL SMANIA. [x] := {y X t.q. x y}.

4. Curvas planas. T = κn, N = κt, B = 0.

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Revisão de Probabilidade e Estatística

RECOMENDAÇÃO N.º 6/ B / 2004 [art.º 20.º, n.º 1, alínea b), da Lei n.º 9/91, de 9 de Abril]

CRM e Prospecção de Dados

Reconhecimento de Padrões

COMENTÁRIO AFRM/RS 2012 ESTATÍSTICA Prof. Sérgio Altenfelder

Esmiuçando o Teorema de Bayes e fazendo exercícios

PLANIFICAÇÃO ANUAL. MACS Matemática Aplicada às Ciências Sociais. Curso de Línguas e Humanidades 2º ANO (11º ANO)

Exercícios Resolvidos sobre probabilidade total e Teorema de Bayes

SAD orientado a MODELO

Aprendizado Bayesiano. Disciplina: Agentes Adaptativos e Cognitivos

Resoluções comentadas das questões de Estatística da prova para. ANALISTA DE GERENCIAMENTO DE PROJETOS E METAS da PREFEITURA/RJ

O degrau de potencial. Caso II: energia maior que o degrau

Aula 8 Circuitos Integrados

Curso Satélite de. Matemática. Sessão n.º 2. Universidade Portucalense

Métodos de Monte Carlo

Vamos Jogar no Totoloto?

1 Módulo ou norma de um vetor

ficha 3 espaços lineares

TIC Unidade 2 Base de Dados. Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado.

Computabilidade 2012/2013. Sabine Broda Departamento de Ciência de Computadores Faculdade de Ciências da Universidade do Porto

I.3 Indução de Árvores de Decisão

PROPOSTA DE RESOLUÇÃO DO EXAME NACIONAL DE MACS (PROVA 835) 2ªFASE

Data Mining II Modelos Preditivos

CONCURSO PETROBRAS DRAFT. Pesquisa Operacional, TI, Probabilidade e Estatística. Questões Resolvidas. Produzido por Exatas Concursos

Momentos de uma variável aleatória

Matemática Aplicada às Ciências Sociais

INSTITUTO TECNOLÓGICO

Ivan Guilhon Mitoso Rocha. As grandezas fundamentais que serão adotadas por nós daqui em frente:

X.0 Sucessões de números reais 1

Aula 1: Introdução à Probabilidade

Pré processamento de dados II. Mineração de Dados 2012


Introdução a Datamining (previsão e agrupamento)

Unidade 11 - Probabilidade. Probabilidade Empírica Probabilidade Teórica

a 1 x a n x n = b,

PROBABILIDADE Prof. Adriano Mendonça Souza, Dr.

Parece claro que há uma, e uma só, conclusão a tirar destas proposições. Esa conclusão é:

Processos Estocásticos

Propagação de distribuições pelo método de Monte Carlo

ActivALEA. active e actualize a sua literacia

Testes (Não) Paramétricos

Desta propriedade, caminhando no sentido inverso, retira-se a regra de primitivação por partes, que se apresenta no seguinte. f g = fg fg.

Testes de Ajustamento (testes da bondade do ajustamento)

2 Independência e dependência das taxas de juro

Os elementos de circuito que estudámos até agora foram elementos lineares. Ou seja, se duplicamos a ddp aos terminais de um

[ \ x Recordemos o caso mais simples de um VLVWHPD de duas HTXDo}HVOLQHDUHV nas duas LQFyJQLWDV [ e \.

Exercícios 1. Determinar x de modo que a matriz

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Associação de Professores de Matemática PROPOSTA DE RESOLUÇÃO DO EXAME DE MATEMÁTICA APLICADA ÀS CIÊNCIAS SOCIAIS (PROVA 835) ªFASE.

INSTRUMENTAÇÃO E CONTROLE DE PROCESSOS TRANSFORMADAS DE LAPLACE

2. O número de vectores da base de L construída na alínea anterior é a soma do número de vectores das bases de M e N.

O caso estacionário em uma dimensão

Clima e sociedade: Rumo a um uso mais eficaz das informações de clima e tempo no Ceará

Álgebra A - Aula 11 RSA

Os juros podem ser capitalizados segundo dois regimes: simples ou compostos.

Análise Complexa e Equações Diferenciais 2 o Semestre 2014/15 Cursos: LEGM, MEC. Michael Paluch

Sistemas Distribuídos: Princípios e Algoritmos Introdução à Análise de Complexidade de Algoritmos

Investigação Operacional- 2009/10 - Programas Lineares 3 PROGRAMAS LINEARES

INTRODUÇÃO AOS MÉTODOS FACTORIAIS

AVALIAÇÃO DO MESTRADO EM EDUCAÇÃO ESPECIAL

Artigo 4.º Regime excecional de avaliação

Tópico 11. Aula Teórica/Prática: O Método dos Mínimos Quadrados e Linearização de Funções

Regulamento de Estágios

Matemática Discreta para Computação e Informática

Gerenciamento de Projeto: Criando o Termo de Abertura III. Prof. Msc Ricardo Britto DIE-UFPI rbritto@ufpi.edu.br

Introdução. Existem situações nas quais há interesse em estudar o comportamento conjunto de uma ou mais variáveis;

Transcrição:

CRM e Prospecção de Dados Marília Antunes aula de 4 de Maio 09 5 Modelos preditivos para classificação (continuação) 5.6 Modelos naive Bayes - classificador bayesiano simples O método ganha a designação de classificador bayesiano simples ou ingénuo (naif ) por partir do pressuposto simplificador de existência de independência condicional das variáveis dada a classe. Isto é, assenta na validade da seguinte igualdade: p(x c k ) = p(x 1,...,x p c k ) = p p(x j c k ), 1 k m. (1) Usando o teorema de Bayes, a probabilidade a posteri de uma dada classe condicional à observação do vector x é dada por p(c k x) = p(x c k)p(c k ) m l=1 p(x c k)p(c l ). (2) Se, mais uma vez, a regra de classificação dado um objecto (representado por um vector x) consistir em classificá-lo na classe que apresentar o maior valor da probabilidade a posteriori, bastará, para tal, atender ao valor no numerador da expressão anterior: p(c k x) p(x c k )p(c k ) p = p(c k ) p(x j c k ), 1 k m. (3) 1

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 2 Consideremos o caso em que existem apenas duas classes, c 1 e c 2. À razão das probabilidades p(c 1 x) p(c 2 x) chama-se chance da classe c 1 dado x e representa a relação entre as probabilidades a posteriori das classes c 1 e c 2. Exemplo 1. Se p(c 1 x) p(c 2 = 1.2, conclui-se que, para um objecto com um vector x) de medições x, a probabilidade deste pertencer à classe c 1 é superior em 20% à probabilidade de pertencer à classe c 2. Analogamente se poderá dizer que a probabilidade de pertencer à classe c 2 é 17% menor do que a probabilidade de pertencer à classe c 1, já que 1 = 0.83. 1.2 Tomando o logaritmo da chance obtém-se log p(c 1 x) p(c 2 x) = log p(c 1) p(c 2 ) + p log p(x j c 1 ) p(x j c 2 ). (4) Portanto, o logaritmo da chance de um objecto caracterizado por x pertencer à classe c 1 é dado pela soma da contribuição da priori e das contribuições de cada uma das variáveis, todas em termos separados da soma. Esta forma aditiva tem utilidade no sentido de permitir uma interpretação de cada termo. Note-se que observando o sinal de log p(x j c 1 ) p(x j c 2 se obtém a informação sobre ) qual das classes, c 1 ou c 2, com maior probabilidade produziria o valor observado para a j ésima variável, x j e, portanto, se o valor observado x j está a contribuir para que a classificação de x penda para a classe c 1 ou para a classe c 2. No caso de x j ser o valor de uma variável contínua, o pressuposto de independência condicional continua a ser válido. Nesse caso, p(x j c k ) representa a função de densidade de probabilidade, tomando-se o produto dos valores destas funções no cálculo das probabilidades a posteriori. As funções de densidade de probabilidade são estimadas da forma usual: adoptando-se um modelo paramétrico (como a distribuição normal, por exemplo), uma solução paramétrica mais flexível como uma mistura ou uma solução não paramétrica como o estimador kernel. Se os objectos forem caracterizados por variáveis quantitativas e categóricas, a expressão da probabilidade a posteriori envolverá o produto de funções de densidade de probabilidade e de funções de probabilidade das variáveis categóricas condicionais à classe. Estas últimas serão estimadas pelas frequências observadas nas classes considerando o conjunto de treino. Regra de classificação: Dado um novo objecto caracterizado por um vector x, este é classificado no grupo que apresentar maior valor para a probabilidade a posteriori.

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 3 Exemplo 2. Consideremos novamente os dados relativos a condições climatéricas e ao desfecho relativamente à realização de partidas de ténis: 1 sol quente alta fraco não 2 sol quente alta forte não 3 nublado quente alta fraco sim 4 chuva moderado alta fraco sim 5 chuva frio normal fraco sim 6 chuva frio normal forte não 7 nublado frio normal forte sim 8 sol moderado alta fraco não 9 sol frio normal fraco sim 10 chuva moderado normal fraco sim 11 sol moderado normal forte sim 12 nublado moderado alta forte sim 13 nublado quente normal fraco sim 14 chuva moderado alta forte não O objectivo é prever o desfecho de uma situação x =(Tempo,Temperatura,Humidade,Vento)=(sol,frio,normal,forte). Comecemos por separar os dados do conjunto de treino pelas classes relativas ao desfecho, c 1 =(Joga=N~ao) e c 2 =(Joga=Sim): e 1 sol quente alta fraco não 2 sol quente alta forte não 6 chuva frio normal forte não 8 sol moderado alta fraco não 14 chuva moderado alta forte não

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 4 3 nublado quente alta fraco sim 4 chuva moderado alta fraco sim 5 chuva frio normal fraco sim 7 nublado frio normal forte sim 9 sol frio normal fraco sim 10 chuva moderado normal fraco sim 11 sol moderado normal forte sim 12 nublado moderado alta forte sim 13 nublado quente normal fraco sim A partir daqui, estimam-se facilmente as probabilidades p(c k ) e p(x j c k ), para k = 1, 2 e j = 1,..., 4 : p(c 1 ) = 5 14, p(c 2) = 9 14 p(sol c 1 ) = 3 5, p(sol c 2) = 2 9 p(frio c 1 ) = 1 5, p(frio c 2) = 3 9 p(normal c 1 ) = 1 5, p(normal c 2) = 6 9 p(forte c 1 ) = 3 5, p(forte c 2) = 3 9 donde se obtém p(c 1 ) 4 p(x j c 1 ) = 45 8750 = 0.0051 e p(c 2 ) 4 p(x j c 2 ) = 972 91854 = 0.0106. A conclusão é que a nova observação deverá ser classificada na classe c 2 ou seja, perante as condições x =(sol,frio,normal,forte), a previsão de desfecho é Joga=sim. Calculemos os termos envolvidos no logaritmo da chance de uma observação caracterizada por x =(sol,frio,normal,forte): log p(c 1 x) p(c 2 x) = log p(c 1) p p(c 2 ) + log p(x j c 1 ) p(x j c 2 ) 0.722 = 0.588 + 0.993 0.511 1.204 + 0.588 Esta igualdade permite-nos afirmar o seguinte (com base no grupo de treino): a conjunção das condições é mais favorável ao desfecho Joga=sim;

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 5 a informação sobre o desfecho de situações do passado (grupo de treino) é mais favorável ao desfecho Joga=sim; Tempo=sol é mais favorável ao desfecho Joga=n~ao; Temperatura=frio é mais favorável ao desfecho Joga=sim; Humidade=normal é mais favorável ao desfecho Joga=sim; Vento=forte é mais favorável ao desfecho Joga=n~ao. 5.7 Modelo de regressão linear Leitura recomendada: Capítulo 10 de Principles of Data Mining. Hand, David J.; Mannila, Heikki; Smyth, Padhraic. (Fotocópias disponíveis na reprografia do departamento.)