CRM e Prospecção de Dados



Documentos relacionados
CRM e Prospecção de Dados

CRM e Prospecção de Dados

CRM e Prospecção de Dados

Cláudio Tadeu Cristino 1. Julho, 2014

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

Utilização do SOLVER do EXCEL

CURSO ON-LINE PROFESSOR GUILHERME NEVES

O que é a estatística?

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Revisão de Probabilidade e Estatística

Departamento de Matemática - UEL Ulysses Sodré. Arquivo: minimaxi.tex - Londrina-PR, 29 de Junho de 2010.

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I

CAP. I ERROS EM CÁLCULO NUMÉRICO

Lógica e Raciocínio. Decisão sob Risco Probabilidade. Universidade da Madeira.

INVESTIGAÇÃO OPERACIONAL MÉTODOS DE PLANEAMENTO. Capítulo II Método PERT

CRM e Prospecção de Dados

Probabilidade. Distribuição Normal

INTRODUÇÃO AOS MÉTODOS FACTORIAIS

INE 5111 Gabarito da Lista de Exercícios de Probabilidade INE 5111 LISTA DE EXERCÍCIOS DE PROBABILIDADE

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho

Exercícios resolvidos sobre Definição de Probabilidade

Correlação e Regressão Linear

CADEX. Consultoria em Logística Interna. Layout de armazém. Objectivos. Popularidade. Semelhança. Tamanho. Características

III. Projeto Conceitual de Banco de Dados. Pg. 1 Parte III (Projeto Conceitual de Banco de Dados)

9. Derivadas de ordem superior

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

Teorema do Limite Central e Intervalo de Confiança

Capítulo 2 - Problemas de Valores Fronteira para Equações Diferenciais Ordinárias

Teorema Central do Limite e Intervalo de Confiança

CRM e Prospecção de Dados

Reconhecimento de Padrões

Cálculo das Probabilidades e Estatística I

Plano Curricular de Matemática 9º ano /2015-3º Ciclo

CONCEITOS. Evento: qualquer subconjunto do espaço amostral. Uma primeira idéia do cálculo de probabilidade. Eventos Teoria de conjuntos

Aula 5 - Matemática (Gestão e Marketing)

Aula 11 Esperança e variância de variáveis aleatórias discretas

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

COMENTÁRIO AFRM/RS 2012 ESTATÍSTICA Prof. Sérgio Altenfelder

Análise de Regressão Linear Simples e Múltipla

Disciplina Estatística Prof. Msc Quintiliano Siqueira Schroden Nomelini LISTA DE DSITRIBUIÇÕES DE PROBABILIDADE DISTRIBUIÇÕES DISCRETAS

ActivALEA. active e actualize a sua literacia

Unidade VI. Validação e Verificação de Software Teste de Software. Conteúdo. Técnicas de Teste. Estratégias de Teste

Exercícios resolvidos sobre Função de probabilidade e densidade de probabilidade

INTRODUÇÃO À ESTATÍSTICA

Bioestatística Aula 3

Parece claro que há uma, e uma só, conclusão a tirar destas proposições. Esa conclusão é:

Noções de Pesquisa e Amostragem. André C. R. Martins

Aprendizagem de Máquina. Ivan Medeiros Monteiro

Tópico 11. Aula Teórica/Prática: O Método dos Mínimos Quadrados e Linearização de Funções

DISTRIBUIÇÕES DE PROBABILIDADE

Diagrama de transição de Estados (DTE)

3 Concurso de Rentabilidade

Hipótese Estatística:

Após essa disciplina você vai ficar convencido que a estatística tem enorme aplicação em diversas áreas.

UNIVERSIDADE FEDERAL DO PIAUÍ (UFPI) ENG. DE PRODUÇÃO PROBABILIDADE E ESTATÍSTICA 2

6 Construção de Cenários

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por

(b) Qual a probabilidade de ter sido transmitido um zero, sabendo que foi recebido um (1.0) zero?

Notas sobre a Fórmula de Taylor e o estudo de extremos

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo

Testes (Não) Paramétricos

Uma lei que associa mais de um valor y a um valor x é uma relação, mas não uma função. O contrário é verdadeiro (isto é, toda função é uma relação).

ANÁLISE MATEMÁTICA II

APLICAÇÕES DA DERIVADA

Análise da mortalidade em Portugal.

NOÇÕES DE PROBABILIDADE

LIMITES e CONTINUIDADE de FUNÇÕES. : R R + o x x

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.

Leia o texto abaixo para resolver as questões sobre população e amostra.

CAP4: Distribuições Contínuas Parte 1 Distribuição Normal

INSTITUTO POLITÉCNICO DE SETÚBAL ESCOLA SUPERIOR DE TECNOLOGIA DE SETÚBAL DEPARTAMENTO DE MATEMÁTICA PROBABILIDADES E ESTATÍSTICA

Capítulo 1. x > y ou x < y ou x = y

Unidade de Ensino Descentralizada de Colatina Coordenadoria de Informática Disciplina: Probabilidade e Estatística Prof. Leandro Melo de Sá

a 1 x a n x n = b,

UM TEOREMA QUE PODE SER USADO NA

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

Tecido A B

DISTRIBUIÇÃO NORMAL 1

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Exercícios Resolvidos sobre: I - Conceitos Elementares

Inferência Estatística-Macs11ºano

Espaço Amostral ( ): conjunto de todos os

CURSO ON-LINE PROFESSOR: VÍTOR MENEZES

2 Independência e dependência das taxas de juro

Investigação Operacional- 2009/10 - Programas Lineares 3 PROGRAMAS LINEARES

Introdução ao estudo de equações diferenciais

FUNÇÃO REAL DE UMA VARIÁVEL REAL

Análise de regressão linear simples. Departamento de Matemática Escola Superior de Tecnologia de Viseu

PERGUNTAS MAIS FREQÜENTES SOBRE VALOR PRESENTE LÍQUIDO (VPL)

Notas de aula número 1: Otimização *

MODELOS PROBABILÍSTICOS MAIS COMUNS VARIÁVEIS ALEATÓRIAS DISCRETAS

PNAD - Segurança Alimentar Insegurança alimentar diminui, mas ainda atinge 30,2% dos domicílios brasileiros

Distribuições de Probabilidade Distribuição Normal

Prova Escrita de Matemática Aplicada às Ciências Sociais

Análise de Regressão. Tópicos Avançados em Avaliação de Desempenho. Cleber Moura Edson Samuel Jr

Capítulo 7 Medidas de dispersão

CAPÍTULO 8 - DECISÃO: ELABORANDO A GESTÃO DE UM RECURSO NATURAL 68. Exercício: UTILIZAÇÃO SUSTENTÁVEL

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

Tópicos de Física Moderna ano 2005/2006

ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário. As Normas da família ISO As Normas da família ISO 9000

AMOSTRAGEM ESTATÍSTICA EM AUDITORIA PARTE ll

Transcrição:

CRM e Prospecção de Dados Marília Antunes aula de 6 Abril 09 5 Modelos preditivos para classificação 5. Introdução Os modelos descritivos, tal como apresentados atrás, limitam-se à sumarização dos dados de uma forma conveniente, com o objectivo de aumentar a compreensão dos dados e das relações aí presentes. Em contraste, os modelos preditivos têm como missão permitir-nos prever o valor desconhecido de uma variável, dados os valores (conhecidos) de outras variáveis. Como exemplos, podemos citar o diagnóstico feito a um paciente com base em resultados de exames clínicos, a estimação da probabilidade de um cliente vir a comprar o produto A dado que é comprador de um determinado conjunto de outros produtos, ou prever o valor de uma determinada acção no mercado de valores mobiliários dadas as suas cotações passadas. A modelação preditiva pode ser vista como um processo de aprendizagem em que é estudada a relação entre um vector de medições x (input) e uma resposta escalar y (output). A construção de modelos preditivos exige o conhecimento de x e de y para um determinado número de objectos, com base no qual se vai construir o modelo - o conjunto de treino. O conjunto de treino, D treino, é constituído por pares de de medições, sendo cada par composto por uma observação do vector x e do correspondente valor de y. Isto é, D treino = {(x(),y()),..., (x(n),y(n))}. () O objectivo da modelação preditiva é o de estimar, com base no conjunto de treino, uma função y = f(x;θ) que permita prever o valor de y dado o input de um vector de observações x e um vector de parâmetros estimados θ. A função f é a forma forma funcional do modelo estrutural representando a relação entre y e x e θ é o vector de parâmetros (desconhecidos) desse modelo. Os valores de θ são estimados a partir do conjunto de treino através da minimização de uma função score através de um algoritmo.

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 2 Exemplo. O valor que um cliente de uma banco gastará mensalmente com o seu cartão de crédito (y) poderá ser predito através de uma função linear f(x;θ) = θ 0 +θ x, do valor dos seus depósitos mensais. Neste caso, o método dos mínimos quadrados será o algoritmo a utilizar para minimizar a função score, que é a soma dos quadrados dos desvios entre os valores observados de y e os valores preditos pelo modelo. A construção de um modelo preditivo exige, portanto, que se decida sobre três aspectos: o modelo (ou a família de modelos); a função score; a estratégia de escolha do modelo dentro da família seleccionada e dos melhores parâmetros para o modelo. Em geral, sabe-se pouco à partida sobre a forma funcional de f(x;θ) e, por isso, a opção por modelos simples é em geral uma boa escolha. Estes modelos são em geral mais estáveis e fáceis de interpretar e podem ser usados como componentes para uma estrutura mais complexa. Em modelação preditiva, a escolha da função score é, em geral, simples e intuitiva. Tipicamente, é uma função da diferença entre a previsão produzida pelo modelo y(i) ˆ = f(x(i);θ) e o verdadeiro valor y(i), isto é, S(θ) = ( y(i) y(i) ˆ ) D treino d = D treino d (y(i) f(x(i);θ)) (2) onde D treino é o conjunto de todos os pares (x(i),y(i)) utilizados para estimar o modelo (o conjunto de treino) e d é uma distância (escalar), tal como por exemplo o erro quadrático para o caso em que y é uma vqriável quantitativa ou uma função indicatriz no caso de y ser uma variável categórica. Para comparar modelos preditivos é necessário estimar a qualidade do seu desempenho quando utilizado sobre dados que não fazem parte do conjunto de treino, isto é, dados que não foram utilizados para construir o modelo. A função score pode ser reformulada, de forma a ser calculada sobre um conjunto exterior ao usado para construir o modelo. Outra possibilidade consiste em fazer validação cruzada ou utilizar uma função score com penalização. Em modelação preditiva há duas tarefas principais, conforme Y seja uma variável categórica ou quantitativa. Quando Y é uma variável categórica, a tarefa é genericamente designada por classificação. Quando a variável Y é

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 3 quantitativa, a tarefa toma a designação genérica de regressão. (Nota: por classificação, entende-se aqui o que é normalmente designado por classificação supervisionada - para a distinguir da situação em que o problema consiste em determinar, antes da classificação dos objectos propriamente dita, o número de classes a considerar, tal como acontece com a análise de clusters.) Debruçar-nos-emos sobre modelos preditivos para classificação. A variável a ser predita (variável resposta) é, neste caso, uma variável categórica, que passaremos a designar por variável classe. Por conveniência de notação, utilizaremos C em vez de Y, e admitamos que C pode tomar valores no conjunto {c,...,c m }. Os valores observados de X,...,X p são geralmente designados por atributos, variáveis explanatórias ou variáveis de input, etc. Representaremos por x o vector p-dimensional das variáveis explanatórias observadas, que podem ser de natureza quantitativa, ordinal ou categórica. x j (i) corresponderá, assim, à j-ésima componente de x(i), o vector dos valores observados das variáveis explanatórias para o i-ésimo objecto da amostra, j p, i n. Relativamente à classificação, há duas perspectivas a considerar: a da obtenção de uma fronteira associada à decisão e outra, probabilística. 5.. Classificação discriminativa e fronteiras de decisão Na abordagem discriminativa, um modelo de classificação f(x;θ) tem como entrada os valores do vector x e como resultado um elemento do conjunto {c,...,c m }. Consideremos o caso em que x corresponde à medição de apenas duas variáveis X e X 2. Em algumas regiões do plano (X,X 2 ), a função f(x;θ) tomará o valor c. A união de tais regiões (para as quais o valor predito pelo modelo é c ) designa-se por região de decisão para a classe c. A região complementar a esta corresponderá à região de decisão para as restantes classes. Conhecer as regiões de decisão é equivalente a conhecer as suas fronteiras. Como funções para definir estas fronteiras existes inúmeras possibilidades, desde as mais simples como rectas, planos ou polinómios de grau baixo, até outras mais complexas. Na maioria dos problemas reais de classificação, as classes não são perfeitamente separáveis no espaço definido por X. Isto significa que podem existir membros de diferentes classes apresentando valores de X muito semelhantes ou mesmo iguais. Em vez de nos centrarmos nas regiões de decisão, podemos procurar uma função f(x;θ) que maximize alguma medida de separação entre as classes. Estas funções designam-se por funções discriminantes. A primeira abordagem formal ao problema da classificação deve-se a Fisher (936), que introduziu o método de análise discriminante linear

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 4 de Fisher, baseado precisamente nesta ideia: obter a combinação linear das variáveis em x que produzem a discriminação máxima entre as (duas) classes. 5..2 Modelos probabilísticos para classificação Seja p(c k ) a probabilidade de que um objecto seleccionado aleatoriamente pertença à classe c k. Assumindo que as classes são disjuntas e exaustivas, tem-se k p(c k) =. Na prática, isto poderá não acontecer. Por exemplo, se as classes são relativas a doenças, uma pessoa que tenha mais do que uma doença pertencerá a mais do que uma classe - as classes não são mutuamente exclusivas. Neste caso, a solução passa por reformular a abordagem, passando-se a considerar um problema múltiplo de classificação em duas classes: tem doença ou não, tem doença 2 ou não, etc. Também pode acontecer que exista uma doença que não está contemplada em {c,...,c k } - as classes não são exaustivas. Neste caso, é necessário criar uma nova classe, c k+ a que corresponderão todas as outras doenças. Suponhamos que existem duas classes, masculino e feminino, por exemplo, e que p(c k ),k =, 2, representa a probabilidade de um indivíduo ser do sexo masculino ou do sexo feminino. As probabilidades p(c k ),k =, 2, representam, portanto, a probabilidade de um indivíduo i pertencer a alguma daquelas classes, sem que haja qualquer outra informação sobre o indivíduo. Ou seja, sem o conhecimento de x(i). A estas probabilidades chamamos probabilidades a priori uma vez que representam a probabilidade de pertença de um indivíduo a uma classe antes da obtenção de mais informação a seu respeito, ou seja, antes da observação de x. A estimação destas probabilidades pode ser feita de forma muito simples, recorrendo-se ao estimador de máxima verosimilhança, que é, simplesmente, a proporção de elementos da amostra que pertencem a cada classe. Poderão existir situações em que esta estimação seja mais complexa, dependendo do desenho da amostra isto é, da forma como a experiênca foi planeada. Em cada classe k admite-se que x tem distribuição de probabilidade (função densidade de probabilidade no caso das variáveis serem todas contínuas) p(x c k,θ k ), onde θ k é o vector de parâmetros da distribuição de X na classes c k. Por exemplo, se as variáveis forem todas contínuas e se admitir para X uma distribuição normal multivariada, θ k representará o valor médio e a matriz de covariâncias para cada classe. Uma vez estimadas as distribuições p(x c k,θ k ), por aplicação do teorema de Bayes obtêm-se as probabilidades a posteriori p(c k x) = p(x c k,θ)p(c k ) m l= p(x c, k m. (3) l,θ)p(c l )

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 5 As probabilidades a posteriori p(c k x,θ) separam, implicitamente, o espaço x em m regiões de decisão que, naturalmente, possuem fronteiras. Por exemplo, no caso em que existem apenas duas classes (m = 2) as fronteiras das regiões de decisão encontram-se nos pontos que são solução de p(c x,θ ) = p(c 2 x,θ 2 ). Note-se que se as probabilidades a posteriori fossem conhecidas em vez de terem de ser estimadas, dado um vector x, a previsão obtida com base nestas probabilidades corresponderia à solução óptima. Se os custos associados aos erros de má classificação forem todos iguais, então a regra de classificação consiste em classificar um novo objecto com um vector de medições x na classe c k que apresentar o maior valor para a probabilidade a posteriori p(c k x). Note-se que este esquema, apesar de ser óptimo no sentido que dado x é o que produz o menor número de más classificações, isso não significa que seja isento de erro. Isto deve-se ao facto das distribuições p(x c k ;θ k ) apresentarem sobreposições. Exemplo 2. Admitamos que foi recolhida uma amostra aleatória de dimensão 00 de trabalhadores de uma empresa, tendo-se registado o género e a altura (em cm) de cada indivíduo. Suponhamos pretendemos classificar um indivíduo como sendo do sexo masculino ou do sexo feminino com base apenas na sua altura. Neste caso, existem apenas duas clases, m = 2, e x = x é unidimensional. Suponhamos que se admite p(x c k,θ k ) = ( ) x µk 2 e 2 σ k, k =, 2, 2πσk ou seja, a altura dos indivíduos pertencentes a c k segue uma distribuição normal com parâmetros θ k = (µ k,σ k ). Considerando apenas X, sem atendermos à classe, a sua distribuição é a de uma mistura 2 p(x) = p(c k )p(x c k,θ k ). (4) k= Admitindo que θ = (62, 5) e que θ 2 = (73, 5), as funções densidade de probabilidade são as que se encontram na Figura. O facto das curvas p(x c,θ ) e p(x c 2,θ 2 ) se cruzarem, significa que existem valores x que são possíveis para ambos os grupos. Dado um indivíduo com altura x, a sua classificação como masculino ou feminino dependerá, não apenas de p(x c k,θ k ) mas do peso da combinação desta valor com a probabilidade a priori de cada classe. Suponhamos que na amostra dos 00 indivíduos, 75 são do sexo feminino e 25 são do sexo masculino. Consequentemente, p(c ) = 0.75 e p(c 2 ) = 0.25. Dada esta repartição dos indivíduos pelas classes, a função

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 6 0.00 0.02 0.04 0.06 0.08 0.0 fem. masc. 40 50 60 70 80 90 200 x Figura : p(x c k,θ k ) para os dois grupos. de densidade de probabilidade da característica altura (não condicional à pertença a qualquer dos grupos) é a representada na Figura 2 por uma linha contínua e é dada por f(x) = 0.75 5 2π e 2( x 62 5 ) 2 + 0.25 5 2π e 2( x 73 5 ) 2. Na mesma figura, as linhas a tracejado correspondem a p(c k )f(x c k ),k =, 2, ou seja, as parcelas que compõem a f.d.p. da mistura. Dado um indivíduo com altura igual a 67.5 cm, este deverá ser classificado como masculino ou feminino? Deverá ser classificado como feminino se p(c x) > p(c 2 x) e como masculino caso contrário. A densidade de probabilidade no ponto x = 67.5 para a altura das mulheres é dada por p(67.5 θ ) = sendo para os homens dada por p(67.5 θ 2 ) = 5 2π e = 0.04357044, 5 2π e = 0.04357044. 2( 67.5 62 5 ) 2 2( 67.5 73 5 ) 2

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 7 0.00 0.02 0.04 0.06 0.08 0.0 40 50 60 70 80 90 200 x Figura 2: Função de densidade de probabilidade para a altura. A tracejado, as parcelas que a compõem: p(c k )p(x c k ),k =, 2. De facto, o ponto x = 67.5 corresponde ao ponto de intersecção das curvas p(x c,θ ) e p(x c 2,θ 2 ). Isto significa que na população masculina de trabalhadores da empresa, em geral, tal como na feminina em geral, se espera igual proporção de indivíduos com altura próxima de 67.5 cm. Nas mulheres, no entanto, estas estarão entre as mais altas, enquanto que no grupo dos homens, estes estarão entre os mais baixos. Apesar da igualdade das funções de probabilidade, isto não significa que, dado um indivíduo com altura igual a 67.5 cm, seja igualmente provável que se trate de um homem ou de uma mulher. Isto depende da constituição da população, ou seja, da proporção de homens e mulheres que constituem a população de trabalhadores da empresa. p(c 67.5) = p(67.5 c,θ )p(c ) 2 l= p(x c l,θ l )p(c l ) = 0.04357044 0.75 0.04357044 0.75 + 0.04357044 0.25 = 0.75.

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 8 p(c 2 67.5) = p(67.5 c 2,θ 2 )p(c 2 ) 2 l= p(x c l,θ l )p(c l ) = 0.04357044 0.25 0.04357044 0.75 + 0.04357044 0.25 = 0.25. Note-se que p(c 2 67.5) pode ser obtido como p(c 67.5). Tem-se que p(c 67.5) > p(c 2 67.5) e portanto o indivíduo deverá ser classificado como pertencendo ao sexo feminino. A sobreposição das regiões de x em que p(x c k,θ) > 0 para dois ou mais valores de k implica que o máximo das probabilidades p(c k x) < e portanto existe uma probabilidade não nula p(c k x) de que objectos provenientes de outras classes menos prováveis tomem o mesmo valor x apesar da decisão seja escolher c k quando um tal valor de x é observado. Estendendo este conceito a todo o espaço e tomando o seu valor médio com respeito a x, obtém-se o erro de Bayes p B = ( max (p(c k x))p(x)dx, k substituindo-se o integral por somatório no caso em que x é discreto. Este valor corresponde à menor taxa de erro possível para um classificador, dado o mesmo problema e o mesmo conjunto de treino. Na prática, o erro de Bayes pode apenas ser estimado uma vez que a distribuição exacta de x, p(x) não é, em geral, conhecida. Exemplo 3. Retomando o exemplo anterior, é possível determinar analiticamente a fronteira da região de decisão. Neste caso, a região de decisão associada a c é o intervalo (,x c [. A região de decisão associada à classe c 2 será o complementar deste intervalo. O problema, então, é o de determinar x c. A solução obtém-se resolvendo a desiguladade seguinte com respeito a x, ou seja, p(c x) > p(c 2 x) p(c x) > p(c 2 x) p(x c,θ )p(c ) 2 l= p(x c l,θ l )p(c l ) > p(x c 2,θ 2 )p(c 2 ) 2 l= p(x c l,θ l )p(c l ) p(x c,θ )p(c ) > p(x c 2,θ 2 )p(c 2 ).

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 9 Neste caso concreto, p(c x) > p(c 2 x) 5 2π e 2( xc 62 x < 69.9968, 5 ) 2 0.75 > 5 2π e 2( xc 73 5 ) 2 0.25 pelo que x c = 69.9968 e, portanto, a região de decisão associada a c é (, 69.9968[. Uma vez que admitimos conhecidas as distribuições p(x c k ),k =, 2, a distribuição de X é uma mistura p(x) = p(x θ )p(c ) + p(x θ 2 )p(c 2 ). O erro de Bayes é dado por p B = ( max (p(c k x))p(x)dx k = xc = = = ( (p(c x))p(x)dx + ( xc = 0.5822 ( xc p(c x)p(x)dx + p(x c )p(c )dx + ( xc 0.75 + x c + x c + x c p(x θ )dx + 0.25 Note-se que a expressão acima é ainda equivalente a 0.75 + x c p(x θ )dx + 0.25 ( (p(c 2 x))p(x)dx ) (p(c 2 x)p(x)dx ) (p(x c 2 )p(c 2 )dx xc + x c (p(x θ 2 )dx. ) (p(x θ 2 )dx Na Figura 2 estão representadas (A) as funções de probabilidade da altura para cada classe e a fronteira da região de decisão. O erro de Bayes corresponde à soma do valor das áreas sob a curva a vermelho à esquerda

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 0 A B 0.00 0.02 0.04 0.06 0.08 0.0 fem. x=69.99 masc. 0.00 0.02 0.04 0.06 0.08 0.0 fem. x=69.99 masc. 40 50 60 70 80 90 200 x 40 50 60 70 80 90 200 x Figura 3: A- p(x c k,θ k ) para os dois grupos e fronteira da região de decisão; B- p(c k )p(x c k,θ k ) para os dois grupos e fronteira da região de decisão de x = 69.99 e sob a curva a preto à direita de x = 69.99, ponderadas pelas probabilidades das classes correspondentes. Em (B) estão representadas p(c k )p(x c k,θ k ) para k =, 2, ou seja, as funções de densidade de probabilidade da altura para cada classe, ponderadas pelos valores da probabilidade a priori das classes. Dado um valor de x (altura), o indivíduo é classificado no grupo para o qual p(c k )p(x c k,θ k ) apresentar maior valor. O ponto de corte (fronteira da região de decisão) corresponde ao ponto onde as duas curvas se intersectam. A inclusão de mais variáveis no modelo, isto é, aumentar a dimensionalidade de x, faz com que seja considerada mais informação para decidir sobre a classificação dos objectos, o que conduz a uma diminuição do erro de Bayes. Uma questão que imediatamente se levanta é porque não usar tantas variáveis quantas as necessárias para que o erro de Bayes seja tão pequeno quanto queiramos? A resposta recai sobre o enviesamento e a varância associada à estimativa do erro de Bayes. Embora seja verdade que o erro de Bayes se mantém inalterado ou diminui quando se acrescenta uma variável, é certo que não sabemos exactamente qual é o classificador óptimo nem o valor do erro de Bayes, sendo necessário estimá-los. A regra de classificação é estimada com base num número finito de observações. Se o número de variáveis consideradas aumenta e o dimensão do conjunto de treino se mantém inalterado, então este conjunto de dados estará a ser utilizado para estimar uma estrutura probabilística mais complexa, produzindo estimativas menos precisas à medida que consideramos mais variáveis. O valor real do erro de Bayes poderá estar a decrescer mas a aproximação que conseguimos obter

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL dele é mais pobre. À medida que aumentamos a dimensionalidade, a perda de qualidade da aproximação ultrapassa o ganho na redução do erro de Bayes e as regras deterioram-se. A solução passa por escolher as variáveis criteriosamente; são convenientes variáveis que, consideradas conjuntamente, proporcionem uma boa separação das classes. Encontrar estas variáveis ou um pequenos número de combinações de variáveis é a chave para uma classificação bem sucedida. Leitura recomendada: Capítulo 0 de Principles of Data Mining. Hand, David J.; Mannila, Heikki; Smyth, Padhraic. (Fotocópias disponíveis na reprografia do departamento.)