LUCIANA DE OLIVEIRA BERRETTA. Análise de Inadimplência em Dados de Faturamento Utilizando Rede Bayesiana Ingênua Aumentada em Árvore



Documentos relacionados
CAPÍTULO 2. Grafos e Redes

PROBABILIDADE Prof. Adriano Mendonça Souza, Dr.

Dois eventos são disjuntos ou mutuamente exclusivos quando não tem elementos em comum. Isto é, A B = Φ

Eventos independentes

Exercícios Teóricos Resolvidos

Inteligência Artificial

CAPÍTULO I - ELEMENTOS DE PROBABILIDADE

3 Qualidade de Software

AMOSTRAGEM ESTATÍSTICA EM AUDITORIA PARTE ll

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

Probabilidade - aula I

Aula 1: Introdução à Probabilidade

01/05/2016. Danillo Tourinho Sancho da Silva, MSc ROTEIRIZAÇÃO TEORIA DOS GRAFOS MOTIVAÇÃO

TRANSMISSÃO DE DADOS Prof. Ricardo Rodrigues Barcelar

CONCEITOS. Evento: qualquer subconjunto do espaço amostral. Uma primeira idéia do cálculo de probabilidade. Eventos Teoria de conjuntos

Guia de utilização da notação BPMN

Raciocínio Probabilístico. Inteligência Artificial. Redes Bayesianas. Exemplo. Exemplo. Exemplo. Capítulo 14 Russell & Norvig Seções 14.1 a 14.

4Distribuição de. freqüência

ipea políticas sociais acompanhamento e análise 7 ago GASTOS SOCIAIS: FOCALIZAR VERSUS UNIVERSALIZAR José Márcio Camargo*

Fundamentos de Teste de Software

Fração como porcentagem. Sexto Ano do Ensino Fundamental. Autor: Prof. Francisco Bruno Holanda Revisor: Prof. Antonio Caminha M.

Unidade de Ensino Descentralizada de Colatina Coordenadoria de Informática Disciplina: Probabilidade e Estatística Prof. Leandro Melo de Sá

4. Metodologia. Capítulo 4 - Metodologia

1 Um guia para este livro

7 - Análise de redes Pesquisa Operacional CAPÍTULO 7 ANÁLISE DE REDES. 4 c. Figura Exemplo de um grafo linear.

6. Pronunciamento Técnico CPC 23 Políticas Contábeis, Mudança de Estimativa e Retificação de Erro

CÓDIGO CRÉDITOS PERÍODO PRÉ-REQUISITO TURMA ANO INTRODUÇÃO

5 Considerações finais

Motivação. Robert B. Dilts

Cálculo das Probabilidades e Estatística I

Fundamentos de Teste de Software

Faculdade Sagrada Família

Prof. Bruno Holanda - Semana Oĺımpica Nível 1. Teoria dos Grafos

Unidade 11 - Probabilidade. Probabilidade Empírica Probabilidade Teórica

Probabilidade e Estatística I Antonio Roque Aula 11 Probabilidade Elementar: Novos Conceitos

1. Introdução. Avaliação de Usabilidade Página 1

Roteiro SENAC. Análise de Riscos. Planejamento do Gerenciamento de Riscos. Planejamento do Gerenciamento de Riscos

Sumário. 1 Introdução. Demonstrações Contábeis Decifradas. Aprendendo Teoria

PLANEJAMENTO OPERACIONAL - MARKETING E PRODUÇÃO MÓDULO 11 PESQUISA DE MERCADO

ADMINISTRAÇÃO GERAL MOTIVAÇÃO

Boletim. Contabilidade Internacional. Manual de Procedimentos

PLANEJAMENTO ESTRATÉGICO

ANÁLISE DAS MELHORIAS OCORRIDAS COM A IMPLANTAÇÃO DO SETOR DE GESTÃO DE PESSOAS NA NOVA ONDA EM ARACATI CE

TÓPICO ESPECIAL DE CONTABILIDADE: IR DIFERIDO

agility made possible

Probabilidade - Conceitos Básicos. Anderson Castro Soares de Oliveira

INF 1771 Inteligência Artificial

Bem-vindo ao tópico Múltiplas filiais.

O planejamento do projeto. Tecnologia em Gestão Pública Desenvolvimento de Projetos Aula 8 Prof. Rafael Roesler

Processos de gerenciamento de projetos em um projeto

Lista de Exercícios Tratamento de Incerteza baseado em Probabilidade

BSC Balance Score Card

3 Previsão da demanda

INVESTIMENTO A LONGO PRAZO 1. Princípios de Fluxo de Caixa para Orçamento de Capital

Aula 4 Estatística Conceitos básicos

Gerenciamento de Projetos Modulo II Clico de Vida e Organização

A Análise dos Custos Logísticos: Fatores complementares na composição dos custos de uma empresa

COMO CALCULAR A PERFORMANCE DOS FUNDOS DE INVESTIMENTOS - PARTE I

Empreenda! 9ª Edição Roteiro de Apoio ao Plano de Negócios. Preparamos este roteiro para ajudá-lo (a) a desenvolver o seu Plano de Negócios.

c. Técnica de Estrutura de Controle Teste do Caminho Básico

TÉCNICAS DE PROGRAMAÇÃO

3 Dicas Infalíveis Para Ganhar Dinheiro Online. Por Tiago Bastos, Criador da Máquina de Vendas Online

A TEORIA DOS GRAFOS NA ANÁLISE DO FLUXOGRAMA DO CURSO DE ENGENHARIA DE PRODUÇÃO DA UFF

Sumário. 1 Introdução. 2 O Conceito de Provisão. Demonstrações Contábeis Decifradas. Aprendendo Teoria

Sumário FPD Formulário de projeto P&D...4

Diretrizes para determinação de intervalos de comprovação para equipamentos de medição.

CAPÍTULO 04 NOÇÕES DE PROBABILIDADE

As Sete Ferramentas Básicas do Controle da Qualidade

4 Metodologia e estratégia de abordagem

Do neurônio biológico ao neurônio das redes neurais artificiais

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.

5 DICAS DE GESTÃO EM TEMPOS DE CRISE. Um guia prático com 5 dicas primordiais de como ser um bom gestor durante um período de crise.

Falso: F = Low voltage: L = 0

Aprendizado Bayesiano. Disciplina: Agentes Adaptativos e Cognitivos

ESTUDO DE VIABILIDADE. Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos

Apresentação de Dados em Tabelas e Gráficos

4- PROJETO DE BANCO DE DADOS

PREVISÃO DE DEMANDA - O QUE PREVISÃO DE DEMANDA - TIPOS E TÉCNICAS DE PREVISÃO DE DEMANDA - MÉTODOS DE PREVISÃO - EXERCÍCIOS

Modelos Pioneiros de Aprendizado

Exercícios Resolvidos sobre probabilidade total e Teorema de Bayes

2 Fundamentação Conceitual

Preparação do Trabalho de Pesquisa

Gerenciamento de Projetos Modulo VIII Riscos

Consultoria e Gerenciadora

Capítulo 7. Topologia Digital. 7.1 Conexidade

TREINAMENTO SOBRE PRODUTOS PARA VENDEDORES DO VAREJO COMO ESTRATÉGIA PARA MAXIMIZAR AS VENDAS 1. Liane Beatriz Rotili 2, Adriane Fabrício 3.

CAPITAL DE GIRO: ESSÊNCIA DA VIDA EMPRESARIAL

Resolução da lista de exercícios de casos de uso

ADMINISTRAÇÃO I. Família Pai, mãe, filhos. Criar condições para a perpetuação da espécie

7 etapas para construir um Projeto Integrado de Negócios Sustentáveis de sucesso

PROBABILIDADE. Aula 5

POR QUE FAZER ENGENHARIA FÍSICA NO BRASIL? QUEM ESTÁ CURSANDO ENGENHARIA FÍSICA NA UFSCAR?

Estratégias adotadas pelas empresas para motivar seus funcionários e suas conseqüências no ambiente produtivo

Análise de Arredondamento em Ponto Flutuante

INFORMATIVO ROTÁRIO GLOBALOUTLOOK GUIA SOBRE O MODELO DE FINANCIAMENTO DA FUNDAÇÃO ROTÁRIA

Experimentos Aleatórios e Espaços Amostrais

3 Gerenciamento de Projetos

COMO COMEÇAR 2016 se organizando?

Transcrição:

LUCIANA DE OLIVEIRA BERRETTA Análise de Inadimplência em Dados de Faturamento Utilizando Rede Bayesiana Ingênua Aumentada em Árvore GOIÂNIA-GO Outubro/2005

Livros Grátis http://www.livrosgratis.com.br Milhares de livros grátis para download.

LUCIANA DE OLIVEIRA BERRETTA Análise de Inadimplência em Dados de Faturamento Utilizando Rede Bayesiana Ingênua Aumentada em Árvore Dissertação submetida ao programa de Pós- Graduação em Engenharia Elétrica e de Computação da Escola de Engenharia Elétrica e de Computação da Universidade Federal de Goiás, para preenchimento dos prérequisitos parciais para a obtenção do título de Mestre em Engenharia Elétrica e de Computação. Área de Concentração: Engenharia de Computação. Linha de Pesquisa: Planejamento e Computação Aplicada. Orientador: Prof. Dr. Cássio Dener Noronha Vinhal Universidade Federal de Goiás - UFG GOIÂNIA-GO Outubro/2005

Dissertação de Mestrado sob o título Análise de Inadimplência em Dados de Faturamento Utilizando Rede Bayesiana Ingênua Aumentada em Árvore, defendida por Luciana de Oliveira Berretta e aprovada em 31 de Outubro de 2005, em Goiânia, Goiás, pela banca examinadora constituída pelos doutores: Prof. Dr. Cássio Dener Noronha Vinhal EEEC/UFG Orientador Prof. Dr. Leonardo Nepomuceno DEE / FEB / UNESP Prof. Dr. Reinaldo Gonçalves Nogueira EEEC/UFG

Dedico esta dissertação a Fabrizzio Alphonsus, uma pessoa muito especial que apareceu em minha vida, que em muitos momentos acreditou mais em mim do que eu mesma e fez-me enxergar que era possível ir mais longe.

Agradecimentos A Deus, por iluminar meus passos nesses caminhos difíceis que a vida nos leva a trilhar; Aos meus pais, Marcos e Cristina, por tudo que fizeram por mim. Obrigada pelo amor, carinho, conselhos, broncas. Sei que vocês não deram tudo que queriam para cada filho, mas com certeza deram tudo que tinham. Vocês deixaram seus sonhos para que pudéssemos sonhar os nossos. Minha dívida com vocês é impagável; Ao meu namorado Fabrizzio, não por entender minha ausência, mas por fazer-se presente sempre. Obrigada pelo tempo dedicado a mim, pois sei que muitas vezes deixou de cuidar da sua vida, para cuidar da minha. Obrigada pelo incentivo, pois sem ele não sei se teria coragem de enfrentar esse desafio. Aos meus irmãos, Ricardo e Mariana, por serem os melhores irmãos do mundo; Ao professor Dr. Cássio Vinhal, meu orientador, que acreditou em mim; À Ângela Marisa Gontijo Resende Oliveira, que se fez minha amiga, ajudou-me em momentos difíceis, e esteve sempre presente dando-me força para continuar; Ao amigo Eduardo Carvalho de Rezende, sempre pronto a ajudar desde a graduação; À minha prima Milena, por escutar pacientemente minhas lamentações, e incentivarme a levantar a cabeça e seguir em frente; Aos Amigos do NEPE, que não permitiram que essa passagem pelo mestrado fosse algo solitário. A todos os professores e colegas do Mestrado em Engenharia Elétrica e de Computação da UFG.

O futuro não é um lugar para onde estamos indo, mas um lugar que estamos construindo. F. Schaar

Resumo O presente trabalho tem por objetivo fazer uma análise de dados para auxiliar na tomada de decisões da diretoria comercial de uma concessionária. Os dados analisados são dados de faturamento de uma concessionária distribuidora de energia elétrica, buscando informar ao usuário a quantidade de inadinplentes e também grupos e características dos consumidores com perfil inadimplente. Para isso, foi proposto um modelo computacional de previsão, que consiste na aplicação de um sistema classificador que identifica padrões no histórico de cada cliente e projeta comportamentos prováveis. O classificador utilizado é o Bayesiano Ingênuo Aumentado em Árvore, que difere do classificador Bayesiano Ingênuo, por permitir dependência condicional dos atributos entre si. A validação do modelo é feita através de uma comparação entre os resultados reais e os resultados previstos. Essa comparação gera uma taxa de acertos (ou uma taxa de erros) que indica se o modelo é considerado aceitável e se pode ser usado para classificação futura. As conclusões indicam que a técnica de classificação utilizada neste trabalho é adequada, pois oferece ao usuário subsídios para investigar com antecedência os principais pontos de inadimplências. Palavras-Chave: Classificação, Naïve Bayes Aumentada em Árvore, Previsão, Rede Bayesiana.

Abstract The objective of this research is to help making decisions, by analysing subjects. The subjects analysed are from the invoice of a power system utility company. The intention is to inform costumers how many people are on undue payments, and how are their status. So, it was created a computer program which can classify each costumer as a good or bad possible client and forecast their probable behavior. For that, we use the Tree Augmented Naïve Bayes, which defers from the Naïve Bayes, leting a conditional dependence of the attributes between them. It will be consider a good project if it gives a comparison between the real and foreseen results. This comparison produces right or wrong rates. Which means if the model is acceptable to be used in future classification. The conclusions indicate that the classificatory tecnics used in this research are available, as they offer its user ways to pre-investigate and point the ones who are on undue payments. Key-Words: Bayes. Bayesian Network, Classification, Forecast, Tree Augmented Naïve

Sumário Lista de abreviaturas e siglas Lista de Figuras Lista de Tabelas Introdução 16 1 Fundamentação Matemática 18 1.1 Modelos Matemáticos.............................. 18 1.1.1 Modelo Matemático Determinístico.................. 18 1.1.2 Modelo Matemático Probabilístico.................. 18 1.2 Noções Gerais da Teoria da Probabilidade.................. 19 1.2.1 Experimento............................... 19 1.2.2 Espaço Amostral............................ 19 1.2.3 Evento.................................. 20 1.2.4 Variável Aleatória............................ 20 1.2.4.1 Variável Aleatória Discreta................. 21 1.2.4.2 Variável Aleatória Contínua................. 21 1.2.5 Probabilidade.............................. 21 1.2.5.1 Probabilidade a Priori.................... 22 1.2.5.2 Probabilidade Condicional.................. 22 1.2.6 Distribuição de Probabilidade..................... 23

1.2.6.1 Distribuição Conjunta de Probabilidade.......... 23 1.2.7 Independência Condicional....................... 24 1.3 Teorema de Bayes................................ 24 1.4 Teoria dos Grafos................................ 25 1.4.1 Definição de Grafos........................... 25 1.4.2 Propriedades Básicas dos Grafos.................... 26 1.4.3 Representação de Grafos........................ 30 1.4.3.1 Lista de Adjacência..................... 30 1.4.3.2 Matriz de Incidência..................... 31 2 Redes Bayesianas 33 2.1 Definição de Rede Bayesiana.......................... 33 2.2 Semântica das Redes Bayesianas........................ 34 2.2.1 A Rede como uma Representação da Distribuição de Probabilidade Conjunta................................ 34 2.2.2 A Rede como uma Codificação de uma Coleção de Declarações de Independência Condicional...................... 35 2.3 Aprendizado Bayesiano............................. 36 2.3.1 Método de Busca e Pontuação..................... 37 2.3.2 Método Baseado em Análise de Dependência............ 40 2.4 Inferência em Redes Bayesianas........................ 42 3 Classificadores 43 3.1 Definição de Classificação........................... 43 3.2 Classificadores de Redes Bayesianas...................... 43 3.2.1 Rede Bayesiana Ingênua........................ 44 3.2.2 Rede Bayesiana Ingênua Aumentada em Árvore........... 44 3.2.3 Rede Bayesiana Geral......................... 45

3.3 Classificadores de Redes Neurais........................ 46 3.3.1 Perceptron................................ 47 3.3.2 Perceptron Multi-Camadas....................... 48 3.3.3 Função de Base Radial......................... 49 3.3.4 K-Vizinhos Mais Próximos....................... 50 3.3.5 Quantização de Vetores de Aprendizagem.............. 51 3.3.6 Teoria da Ressonância Adaptativa................... 51 3.4 Análise de Discriminante............................ 52 4 Modelo de Previsão 55 4.1 Descrição do Modelo.............................. 55 4.1.1 Pré-Processamento........................... 56 4.1.1.1 Limpeza dos Dados...................... 56 4.1.1.2 De-Normalização....................... 57 4.1.1.3 Discretização......................... 58 4.1.2 Pré-Seleção dos Atributos....................... 59 4.1.3 Levantamento da Estrutura da Rede................. 59 4.1.4 Levantamento das Tabelas de Probabilidade Condicional...... 60 4.1.5 Classificação............................... 60 5 Estudos de Caso 61 5.1 Preparação dos Experimentos......................... 61 5.2 Bairros Selecionados.............................. 64 5.2.1 Residencial Granville.......................... 64 5.2.2 Residencial Setor Estrela do Sul - Senador Canedo.......... 65 5.2.3 Vila Alpes................................ 65 5.2.4 Jardim Guanabara III......................... 66

5.2.5 Setor Jaó................................ 67 5.2.6 Parque das Laranjeiras......................... 67 5.2.7 Parque Amazônia............................ 68 5.2.8 Setor Sudoeste............................. 68 5.2.9 Residencial Solar Ville......................... 69 5.2.10 Jardim América............................. 70 5.2.11 Jardim Novo Mundo.......................... 70 5.2.12 Bairro Nova Suíça............................ 71 5.3 Resultados.................................... 72 Conclusões e Sugestões para Trabalhos Futuros 77 Referências 79

Lista de abreviaturas e siglas 1FN Primeira Forma Normal, p. 58 2FN Segunda Forma Normal, p. 59 3FN Terceira Forma Normal, p. 59 ART Adaptive Resonance Theory - Teoria da Ressonância Adaptativa, p. 53 D-map Mapa de Dependência, p. 37 FN Formas Normais, p. 58 GBN General Bayesian Network - Rede Bayesiana Geral, p. 44 I-map Mapa de Indepemdência, p. 38 KNN K-Nearest Neighbor - K-Vizinhos Mais Próximos, p. 51 LVQ Learning Vector Quantization - Quantização de Vetores de Aprendizagem, p. 52 MDL Minimum Descripition Length, p. 36 MLP MultiLayer Perceptron - Perceptron Multi-Camadas, p. 47 MML Minimum Message Length, p. 36 RB Rede Bayesiana, p. 32 RBF Radial Basis Function - Função de Base Radial, p. 48 RN Rede Neural, p. 45 TAN Tree Augmented Naïve-Bayes - Rede Bayesiana Ingênua Aumentada em p. 44 Árvores, TPC Tabelas de Probabilidade Condicional, p. 32

Lista de Figuras 1 Exemplo de Grafo................................ 25 2 Exemplo de Grafo Direcionado......................... 26 3 Exemplo de Grafo Rotulado........................... 26 4 Exemplo de Grafo Valorado........................... 27 5 Exemplo de Grafo com Nó Fonte........................ 28 6 Exemplo de Subgrafo.............................. 28 7 Exemplo de Grafo Regular........................... 29 8 Exemplo de Grafo Bipartido Completo..................... 29 9 Exemplo de Grafo Planar............................ 29 10 Exemplo de Lista de Adjacência........................ 31 11 Exemplo de Matriz de Incidência........................ 31 12 Exemplo de Rede Bayesiana........................... 34 13 (a) Um nó X é condicionalmente independênte de seus não-descendentes (por exemplo, os nós Z ij ) dados seus pais (os nós U i mostrados na área cinza). (b) Um nó X é condicionalmente independêntes de todos os outros nós da rede, dada sua cobertura de Markov (a área cinza).......... 36 14 Exemplo de Rede Bayesiana Ingênua...................... 44 15 Exemplo de Rede Bayesiana Ingênua Aumentada em Árvore......... 45 16 Exemplo de Rede Bayesiana Geral....................... 46 17 Exemplo Hipotético de Classificação...................... 47 18 Neurônio de McCulloch-Pitts......................... 48 19 Exemplo de RBF................................. 50

20 Fases do Modelo................................. 55 21 Histograma de Consumo dos Bairros Selecionados............... 62 22 Histograma de Consumo dos Bairros Selecionados Dividido em Faixas.... 63 23 Histograma de Consumo do Residencial Granville.............. 65 24 Histograma de Consumo do Setor Estrela do Sul............... 65 25 Histograma de Consumo da Vila Alpes.................... 66 26 Histograma de Consumo do Jardim Guanabara III.............. 66 27 Histograma de Consumo do Setor Jaó..................... 67 28 Histograma de Consumo do Parque das Laranjeiras............. 68 29 Histograma de Consumo do Parque Amazônia................ 68 30 Histograma de Consumo do Setor Sudoeste.................. 69 31 Histograma de Consumo do Residencial Solar Ville............. 69 32 Histograma de Consumo do Jardim América................. 70 33 Histograma de Consumo do Jardim Novo Mundo.............. 71 34 Histograma de Consumo do Bairro Nova Suiça................ 71

Lista de Tabelas 1 Resultados do Residencial Granville...................... 72 2 Resultados do Residencial Estrela do Sul.................... 72 3 Resultados da Vila Alpes............................ 72 4 Resultados do Jardim Guanabara III...................... 73 5 Resultados do Setor Jaó............................. 73 6 Resultados do Parque das Laranjeiras..................... 73 7 Resultados do Parque Amazônia........................ 74 8 Resultados do Setor Sudoeste.......................... 74 9 Resultados do Residencial Solar Ville...................... 74 10 Resultados do Jardim América......................... 75 11 Resultados do Jardim Novo Mundo....................... 75 12 Resultados do Bairro Nova Suíça........................ 75 13 Desempenho da TAN em relação à NB..................... 76

Introdução O sistema capitalista faz com que as empresas se tornem cada vez mais competitivas. Em busca de se manter no mercado e obter uma maior lucratividade, essas empresas vêm utilizando algumas técnicas alternativas como, por exemplo, recursos matemáticos para reduzir os custos e aumentar o lucro, de modo a aumentar a variedade de produtos e serviços ofertados, conquistar novos mercados, realizar um marketing mais elaborado, adotar estratégias para manter o cliente e evitar a inadimplência, investindo especialmente em tecnologia. Com esse investimento em tecnologias, observa-se que os processos administrativos estão se tornando cada vez mais informatizados, gerando dados sobre venda, compra, clientes, entre outros. Esses dados constituem bancos de dados que são armazenados em sistemas gerenciadores de bancos de dados, compondo um grande histórico da empresa. Entretanto, tais dados, produzidos e armazenados em larga escala, não podem ser lidos ou analisados por especialistas por meio de métodos manuais tradicionais. Por outro lado, sabe-se que uma grande quantidade de dados equivale a um maior potencial de informação. Diante deste cenário, surge a necessidade de se explorar estes dados para extrair informação (conhecimento implícito) e utilizá-la no âmbito do problema. A exploração do valor destes dados, ou seja, a informação neles contida, implicitamente, depende de técnicas como classificação, regras de associação, entre outras, capazes de gerenciar tarefas complexas. Nesse contexto, o presente trabalho tem como objetivo geral fazer uma análise de dados para auxiliar na tomada de decisões. Do objetivo geral, depreendem-se os seguintes: analisar os problemas do faturamento de uma empresa concessionária de Energia Elétrica; elaborar um modelo computacional que seja capaz de indicar a probabilidade de determinados consumidores se tornarem inadimplentes; desenvolver um sistema especialista para suporte à decisão;

Introdução 17 informar ao usuário a quantidade de inadimplentes; informar grupos e características dos consumidores com perfil inadimplente; fornecer prováveis inadimplentes para o mês seguinte; fornecer grupos e características dos prováveis consumidores inadimplentes do mês seguinte; fazer comparações entre os resultados desse modelo e os resultados do modelo proposto por Soares (2005). No intuito de alcançar os objetivos propostos, o trabalho está dividido em 5 capítulos. Os capítulos 1, 2 e 3 estabelecem a base teórica utilizada para o desenvolvimento deste trabalho, sendo que o capítulo 1 discorre sobre a Teoria da Probabilidade, o Teorema de Bayes e a Teoria dos Grafos. O capítulo 2 tece algumas considerações sobre Redes Bayesianas: a Semântica (a rede como uma distribuição de probabilidade conjunta, ou a rede como uma codificação de uma coleção de declarações de independência condicional); o Aprendizado (Método de Busca e Pontuação, ou Método baseado em Análise de Dependência); a Inferência das Redes Bayesianas. O capítulo 3 define classificador. Mostra alguns procedimentos importantes na preparação dos dados, compara métodos de classificação e descreve alguns classificadores existentes. O capítulo 4 mostra o modelo de previsão, descrevendo cada etapa, desde o Pré-Processamento até a Classificação e o capítulo 5 expõe como foi feita a aplicação do modelo, bem como os resultados dos experimentos realizados.

1 Fundamentação Matemática 1.1 Modelos Matemáticos Sempre que se empregar Matemática, a fim de estudar determinados fenômenos de observação, deve-se necessariamente construir um modelo matemático (determinístico ou probabilístico) para esses fenômenos. Inevitavelmente, o modelo deve simplificar as coisas e certos pormenores devem ser desprezados. O bom resultado do modelo depende de serem os pormenores desprezados realmente sem importância para a elucidação do fenômeno estudado. A resolução do problema matemático pode estar correta e, ainda assim, estar em discordância com os dados observados, simplesmente porque as hipóteses básicas levantadas não foram confirmadas. Geralmente, é bastante difícil afirmar, com certeza, se um modelo matemático específico é ou não adequado, antes que alguns dados de observação sejam obtidos. Para verificar a validade de um modelo, deve-se deduzir um certo número de conseqüências de tal modelo e, a seguir, comparar esses resultados previstos com as observações (MAYER, 1983). 1.1.1 Modelo Matemático Determinístico Modelo Matemático Deterministico é um modelo em que os parâmetros e as variáveis não estão sujeitos a variações aleatórias. Ao fim de um dado intervalo de tempo, o estado do sistema representado por um modelo destes, é inteiramente determinado pelo valor dos seus parâmetros e pelo valor inicial das suas variáveis. 1.1.2 Modelo Matemático Probabilístico Em uma situação em que não existam condições de prever, com certeza, o valor do experimento (mesmo sabendo das propriedades que poderiam influenciar no resultado final, não existindo modelo determinístico que forneça o resultado exato), deve-se usar um modelo probabilístico (não-determinístico).

1.2 Noções Gerais da Teoria da Probabilidade 19 Um modelo probabilístico consiste em um espaço amostral de resultados possíveis mutuamente exclusivos, juntamente com uma medida de probabilidade para cada resultado. Segundo Lopes (1999), o modelo probabilístico é um instrumento matemático que prevê a chance de um possível resultado sem que seja necessário repetir a experiência. Por exemplo, se um elemento radioativo emite partículas do seu núcleo e o experimento tem objetivo de contar essas partículas, em um determinado tempo, é evidente que não se pode antecipar a quantidade destas partículas. 1.2 Noções Gerais da Teoria da Probabilidade Esta seção apresenta conceitos da teoria de probabilidade considerados relevantes para o entendimento deste trabalho. 1.2.1 Experimento Um experimento é um ensaio científico para a verificação de um fenômeno. Também refere-se a qualquer processo de observação e medida. Um experimento aleatório pode ser repetido indefinidamente sob condições inalteradas. Em cada um dos experimentos não se sabe, a priori, qual resultado individual ocorrerá. Embora se possa definir o conjunto de todos os possíveis resultados, cada resultado individual parece ocorrer de forma acidental. Com a repetição em larga escala, uma regularidade surge. Tal regularidade permite construir um modelo matemático para analisar o experimento. Por exemplo, as proporções de caras e coroas, após lançar uma moeda honesta, um grande número de vezes, são aproximadamente iguais (SILVA et al. 2002). 1.2.2 Espaço Amostral Espaço amostral, aqui representado por S, é o conjunto de todos os resultados possíveis de um experimento aleatório qualquer. Os exemplos ilustram os conceitos de experimento (E) e espaço amostral (S): Exemplo 1: E1: Uma moeda é lançada duas vezes sobre uma superfície plana. Em cada um dos dois lançamentos pode ocorrer Cara (Ca) ou Coroa (Co).

1.2 Noções Gerais da Teoria da Probabilidade 20 S1 = {Ca Ca, Ca Co, Co Co, Co Ca}. Exemplo 2: E2: Três peças são retiradas de uma linha de produção. Cada peça é classificada em boa (B) ou defeituosa (D). S2 = {BBB, BBD, BDB, BDD, DBB, DBD, DDB, DDD}. 1.2.3 Evento Um evento é um subconjunto dos resultados possíveis de um experimento. Um evento ocorre quando um componente ocorre: a) A união de dois eventos A e B, denotada por A B, é o evento que ocorre se pelo menos um dos eventos ocorrer. b) A interseção de dois eventos A e B, denotada por A B, é o evento que ocorre se ambos os eventos ocorrerem. c) Dois eventos A e B são mutuamente exclusivos se eles não podem ocorrer simultaneamente, ou seja, A B = φ. Exemplo: Lançamento de um dado: o espaço amostral S = {1, 2, 3, 4, 5, 6}. Exemplos de eventos no espaço amostral S: Evento A: Sair um número maior do que 4. A = {5, 6}. Evento B: Sair um número primo e um par. B = {2}. Evento C: Sair um número ímpar. C = {1, 3, 5}. 1.2.4 Variável Aleatória Variável aleatória é uma variável que está associada a uma distribuição de probabilidade. Portanto, ela é uma variável que não tem um valor fixo, podendo assumir vários valores. O valor obtido, ao se jogar um dado, por exemplo, pode ser 1, 2, 3, 4, 5 ou 6, com probabilidade igual a 1/6 para cada um dos valores (SARTORIS, 2003). Martins (2002) define variável aleatória da seguinte maneira: seja E um experimento aleatório e S o espaço amostral associado ao experimento; uma função X que associe a

1.2 Noções Gerais da Teoria da Probabilidade 21 cada elemento s ɛ S um número real X(s) é denominada variável aleatória. Apesar do nome, variável aleatória é uma função cujo domínio é o conjunto S, e o contradomínio o conjunto de todos os valores possíveis de X, os X(s). 1.2.4.1 Variável Aleatória Discreta Considerando X uma variável aleatória, caso o número de valores possíveis de X seja finito ou infinito numerável, denomina-se X uma variável aleatória discreta. 1.2.4.2 Variável Aleatória Contínua Sendo X uma variável aleatória, se o contradomínio de X é um intervalo ou uma coleção de intervalos, denomina-se X uma variável aleatória contínua. 1.2.5 Probabilidade A probabilidade proporciona um meio para abordar a incerteza. A forma mais comum de medir incertezas relacionadas a eventos consiste em atribuir probabilidades, ou especificar as chances de ocorrência do evento (FREUND et al., 2000). Os agentes agem com incerteza quando não têm acesso a toda verdade sobre seu ambiente. Na medida em que o agente recebe novas percepções, as suas avaliações de probabilidade vão sendo atualizadas de modo a refletir a nova evidência. Antes da evidência ser obtida, usa-se a probabilidade a priori, ou incondicional. Após a evidência ser obtida, faz-se referência à probabilidade a posteriori, ou condicional. Segundo Fonseca et al. (1996), a probabilidade de um evento é uma função definida em um determinado espaço amostral, que associa a cada evento um número real, satisfazendo os seguintes axiomas: I) 0 P(A) 1, onde A corresponde a um evento. II) P(S) = 1, onde S corresponde ao espaço amostral. III) Se A e B forem eventos mutuamente exclusivos (A B = φ), então P(A B) = P(A) + P(B). Muitas propriedades importantes podem ser extraídas dos axiomas acima. Por exemplo: P(φ) = 0.

1.2 Noções Gerais da Teoria da Probabilidade 22 Se A B S, então P(A) P(B). Se A, B S, então P(A B) = P(A) + P(B) - P (A B). Se A S, então 0 P(A) 1. 1.2.5.1 Probabilidade a Priori A probabilidade a priori, ou probabilidade incondicional, é a razão do número de resultados equiprováveis favoráveis a uma determinada situação pelo número total de resultados (LOPES, 1999). P (A) = m n (1.1) onde m é o número de casos favoráveis ao evento A e n é o número de casos possíveis. A probabilidade a priori associada a uma proposição A é o grau de crença acordado para a proposição na ausência de quaisquer outras informações. É representada por P(A), sendo usada somente quando não existe nenhuma outra informação. Por exemplo, se a probabilidade a priori que afirma que uma determinada pessoa tem cárie é 0,1, então escreve-se P(cárie = verdadeiro) = 0,1 ou P(cárie) = 0,1 (RUSSELL, 2004). 1.2.5.2 Probabilidade Condicional Segundo Russell (2004), uma vez que o agente obtém alguma evidência relativa às variáveis aleatórias anteriormente desconhecidas que constituem o domínio, as probabilidades a priori não são mais aplicáveis. Ao invés delas, usam-se as probabilidades condicionais, ou a posteriori. A notação usada para a probabilidade condicional é P(A B), onde A e B são proposições quaisquer. Essa expressão é lida como a probabilidade de A, dado que tudo que sabemos é B. Quando se calcula P(A B), tudo se passa como se B fosse o novo espaço amostral reduzido, dentro do qual se deseja calcular a probabilidade de A (HAZZAN, 1993). A probabilidade condicional é vista como medida de crença no evento, dadas as evidências disponíveis (LADEIRA et al., 1999). A equação de definição é: P (A B) = P (A B). (1.2) P (B)

1.2 Noções Gerais da Teoria da Probabilidade 23 Nota-se que este número só está definido quando P(B)>0. A probabilidade da ocorrência simultânea de dois eventos, A e B, no mesmo espaço amostral, é igual ao produto da probabilidade de um deles pela probabilidade condicional do outro, dado o primeiro (FONSECA et al., 1996). Assim: P (A B) = P (A B) P (B) P (A B) = P (B) P (A B). (1.3) P (B A) = P (A B) P (A) P (A B) = P (A) P (B A). (1.4) Exemplo 1 : Uma carta é retirada de um baralho. Qual a probabilidade de ser um rei preto, dado que a carta retirada foi uma figura ( valete, dama ou rei )? Seja: A = rei preto e B = figura, então: P (A B) = P (A B) P (B) = P (2/52) = 1/6. (1.5) P (12/52) 1.2.6 Distribuição de Probabilidade Seja X uma variável aleatória e D X o seu domínio, a distribuição de probabilidade de X é a medida P(X=x) para todas as instâncias x em D X. Exemplo: Seja X o resultado de lançar um dado não-viciado, então D X = 1, 2, 3, 4, 5, 6 é o domínio de X. A distribuição de probabilidade de X é dada por P(X=x) = 1/6, para todo x em D X. (LADEIRA et al., 1999). 1.2.6.1 Distribuição Conjunta de Probabilidade Um modelo probabilístico de um domínio consiste em um conjunto de variáveis aleatórias que podem ter valores particulares, com certas probabilidades. A distribuição conjunta de probabilidade (Joint Probability Distribution) especifica completamente todas as proposições do domínio. Um evento atômico é uma especificação completa do estado do domínio, ou seja, uma atribuição de valores particulares para todas as variáveis. Sejam as variáveis aleatórias X 1, X 2,..., X n, a distribuição conjunta de probabilidade 1 Exemplo extraído de Martins (2002, p. 78).

1.3 Teorema de Bayes 24 P(X 1,..., X n ) atribui probabilidades para todos os possíveis eventos atômicos. A distribuição conjunta de probabilidade é uma tabela n-dimensional, na qual cada célula fornece a probabilidade de que tal estado específico ocorra. P(X i ) é um vetor uni-dimensional de probabilidades para todos os possíveis valores da variável X i. Segundo Sartoris (2003), chama-se conjunta a probabilidade que se refere a duas (ou mais) variáveis aleatórias simultaneamente. 1.2.7 Independência Condicional Um evento A é considerado independente de um evento B, se a probabilidade de A é igual à probabilidade condicional de A dado B, isto é, se: P(A) = P(A B). É evidente que se A é independente de B, B é independente de A; assim: P(B) = P(B A). Considerando a regra do produto dada pela equação 1.3, pode-se afirmar que se A e B são independentes, então: P(A B) = P(A) * P(B). 1.3 Teorema de Bayes O teorema de Bayes é um método quantitativo para a revisão de probabilidades conhecidas, com base em uma nova informação amostral. A grande diferença entre o método Bayesiano e o da probabilidade clássica é a inclusão de um elemento de subjetividade, oferecido pelo primeiro (CANEIRO, 1999). Para Russell (2004), o teorema de Bayes permite que probabilidades desconhecidas sejam calculadas a partir de probabilidades condicionais conhecidas, em geral no sentido causal. O teorema relaciona uma das parcelas da probabilidade total com a própria probabilidade total (MORETTIN, 1999). Esse teorema permite atualizar crenças, à medida que novas informações são descobertas. O teorema pode ser derivado igualando-se os conseqüentes das equações 1.3 e 1.4

1.4 Teoria dos Grafos 25 e explicitando-se o termo P(A B). Isto leva à equação 1.6, que é a expressão do teorema de Bayes (VEIGA, 2002). P (A B) = P (B A) P (A). (1.6) P (B) Os termos que compõem a equação 1.6 são descritos abaixo: P(A) - Probabilidade a priori; P(A B) - Probabilidade a posteriori; P(B A) - Verossimilhança; P(B) - Contexto, evidência disponível. 1.4 Teoria dos Grafos A teoria dos grafos, em conjunto com a teoria da probabilidade, proporciona a base teórica para a construção de modelos de Redes Bayesianas. 1.4.1 Definição de Grafos Segundo Gersting (2001), um grafo é uma tripla ordenada G = (N, A, g). O conjunto N é um conjunto não-vazio de nós (vértices); o conjunto A é um conjunto de arcos (arestas); o g é uma função que associa cada arco a a um par não-ordenado x-y de nós, que são extremidades de a. Figura 1: Exemplo de Grafo. Para o grafo da Figura 1, os nós são representados por N = (1, 2, 3, 4, 5), os arcos por A = (a 1, a 2, a 3, a 4, a 5, a 6 ) e a função que associa os arcos a suas extremidades é a

1.4 Teoria dos Grafos 26 seguinte: g(a 1 ) = 1-2, g(a 2 ) = 1-2, g(a 3 ) = 2-2, g(a 4 ) = 2-3, g(a 5 ) = 1-3, g(a 6 ) = 3-4. Os arcos de um grafo podem começar em um nó e terminar em outro. Neste caso, obtém-se um grafo direcionado. Em um grafo direcionado, g é uma função que associa a cada arco um par ordenado (x,y) de nós, onde x é o ponto inicial e y é o ponto final. Figura 2: Exemplo de Grafo Direcionado. A Figura 2 mostra um grafo direcionado com 4 nós e 5 arcos. A função g que associa cada arco satisfaz g(a 1 ) = 1-2; o que significa que o arco a 1 começa no nó 1 e termina no nó 2, g(a 2 ) = 1-4, g(a 3 ) = 1-3, e assim por diante. Em um grafo não-direcionado, um par de nós representa qualquer arco sem direção. Assim, os pares (x,y) e (y,x) representam o mesmo arco. Em um grafo direcionado, cada arco é representado por um par ordenado (x,y), onde x é a cauda e y a cabeça do arco. Então, (x,y) e (y,x) representam dois arcos diferentes. 1.4.2 Propriedades Básicas dos Grafos Grafo Rotulado: Quando existem atribuições associadas aos seus nós (numéricos ou não), o grafo é chamado de Grafo Rotulado. Figura 3: Exemplo de Grafo Rotulado.

1.4 Teoria dos Grafos 27 Grafo Valorado: Um grafo G = (N, A) é valorado se existe uma ou mais funções associando N ou A a um conjunto de números. Ou seja, são grafos em que são atribuídos valores numéricos para seus arcos (tempo, distância, custo, etc.). Isso ocorre, por exemplo, em um grafo que representa as populações de uma cidade (nós) e a distância entre elas (arcos). Figura 4: Exemplo de Grafo Valorado. Ordem de Grafo: A ordem de um grafo G é o número de nós existentes no grafo. O grafo da Figura 1, por exemplo, é de ordem 5. Grau de Nó: O grau de um nó n de um grafo G é fornecido pelo número de arestas que lhe são incidentes. Se o grafo for orientado, pode-se dividir o conceito de grau de um nó n em dois: (1) grau de emissão e (2) grau de recepção. O primeiro corresponde ao número de arcos que saem de n. E, por conseguinte, o grau de recepção corresponde ao número de arcos que chegam em n. Se todos os vértices de um grafo G têm o mesmo grau, então diz-se que G é um grafo regular. Por exemplo, o nó 1 da Figura 1 tem grau 3. Adjacência: Dois nós x e y de um grafo orientado G são adjacentes se existir um arco ligando x a y. Para grafos orientados, esse conceito pode ser dividido em sucessor e antecessor. Em um grafo orientado G, x será sucessor de y se houver um arco iniciando em y e atingindo x. Da mesma forma, x será antecessor de y, se o grafo possuir um arco que parte de x e chega em y. Nó Isolado: É um nó que não é adjacente a nenhum outro. Por exemplo, o nó 5 da Figura 1. Laço: É um arco com extremidades n-n para algum nó n. Essa ligação conecta um vértice a ele mesmo. Essa propriedade pode ser verificada no arco a 5 da Figura 2. Arcos Paralelos: Dois arcos com as mesmas extremidades. Exemplo: arcos a 1 e a 2, da Figura 1.

1.4 Teoria dos Grafos 28 Fonte: Um nó n de um grafo orientado G é uma fonte, se o grau de recepção desse vértice for igual a zero. Por exemplo, o nó d do grafo mostrado na Figura 5 é uma fonte. Figura 5: Exemplo de Grafo com Nó Fonte. Sumidouro:. Um nó n de um grafo orientado G é um sumidouro, se o grau de emissão desse vértice for igual a zero. Por exemplo, o nó b do grafo mostrado na Figura 5 é um sumidouro. Pseudografo: É um grafo que pode conter um laço (arco incidente com um único nó) e/ou arcos múltiplos (dois ou mais arcos incidentes com os mesmos nós). Grafo Simples: É um grafo que não possui laços nem arcos paralelos. Subgrafo: Consiste em um conjunto de nós e um conjunto de arcos que são subconjuntos do conjunto original de nós e arcos. Um grafo G 1 é um subgrafo de um grafo G, se, e somente se, os nós e o conjunto de arcos de G 1 são, respectivamente, subconjuntos dos nós e do arcos de G. A Figura 6 representa um subgrafo do grafo mostrado na Figura 1. Figura 6: Exemplo de Subgrafo. Grafo Completo: Um grafo completo possui um arco para cada par de nós. Se esse grafo é de ordem n, então ele pode ser chamado de Kn. É também chamado de grafo regular (n-1 ), pois todos os seus vértices têm grau n-1.

1.4 Teoria dos Grafos 29 Grafo Regular: Um grafo G é dito regular quando todos os seus nós possuem o mesmo grau. Figura 7: Exemplo de Grafo Regular. Grafo Bipartido: É um grafo onde seus nós podem ser divididos em duas partes fixas, V 1 e V 2, chamadas de bipartições fixas. O conjunto de nós de V 1 não são adjacentes entre si, o mesmo ocorre com os nós de V 2, e todos os arcos existentes no grafo ligam um nó de V 1 a um de V 2. Em um grafo Bipartido, quando todo nó de V 1 é adjacente a todo nó de V 2, o Grafo é chamado de Bipartido completo. Figura 8: Exemplo de Grafo Bipartido Completo. Grafo Planar: É um grafo que pode ser representado de modo que seus arcos se intersectam apenas em nós, ou seja, é o grafo que pode ser desenhado em um plano sem que haja o cruzamento de arcos. Figura 9: Exemplo de Grafo Planar.

1.4 Teoria dos Grafos 30 Grafos Isomorfos: Dois ou mais grafos são isomorfos quando eles são essencialmente os mesmos, diferindo-se na forma como eles foram desenhados ou, ainda, pela nomenclatura definida para seus nós (Rotulado). Critério para verificar se dois grafos são ou não isomorfos: sejam dois grafos G 1 (V 1, A 1 ) e G 2 (V 2, A 2 ); um isomorfismo de G 1 sobre G 2 é um mapeamento bijetivo f: V 1 V 2, tal que {xy} A 1, se, e somente se, {f(x)f(y)} A 2, para todo x,y V 1. A Figura 9 mostra um exemplo de grafos isomorfos. Cadeia (Passeio, Caminhamento): É uma seqüência qualquer de arcos adjacentes que ligam dois nós. Trilha: É uma cadeia a qual todos os arcos são distintos. Caminho: Circuito: nó. É uma cadeia a qual todos os nós são distintos. É uma trilha fechada, isto é, uma trilha que inicia e termina no mesmo Ciclo: É um circuito em que nenhum nó se repete, exceto o primeiro e o último. Um ciclo em um grafo é um caminho de algum nó n 0 para ele mesmo, tal que nenhum arco aparece mais de uma vez - n 0 é o único nó que aparece mais de uma vez, aparecendo apenas nas extremidades; Grafo Acíclico: Um grafo que não possui ciclos. Grafo Conexo (Conectado): Um grafo G(N, A) é conexo se há, pelo menos, uma cadeia ligando cada par de nós deste grafo G. Grafo Desconexo (Desconectado): Se há pelo menos um par de nós que não está ligado por nenhuma cadeia, então, o grafo é considerado desconexo. 1.4.3 Representação de Grafos Existem duas formas de representar um grafo G: como uma coleção de listas de adjacência e como uma matriz de adjacência. 1.4.3.1 Lista de Adjacência É uma forma simples e econômica (do ponto de vista computacional) de se representar um grafo. É constituída por listas de nós, e cada lista é formada por um nó inicial e

1.4 Teoria dos Grafos 31 pelo conjunto de nós com os quais ele possui um arco em comum. No caso dos grafos direcionados, a lista de nós pode ser formada de duas maneiras: (1) pelo conjunto de nós que recebem um arco do primeiro nó; (2) pelo conjunto de nós dos quais sai um arco em direção ao primeiro (BOVO, 2004). Veja exemplo de lista de adjacência na Figura 10. Figura 10: Exemplo de Lista de Adjacência. Segundo Gersting (2001), a lista de adjacência, embora precise de armazenagem extra para os ponteiros, pode ser mais eficiente do que uma matriz de adjacência. 1.4.3.2 Matriz de Incidência Trata-se de um matriz n x n, sendo n a ordem do grafo. Nessa matriz, os nós do grafo são distribuídos em linhas e colunas. Os valores de uma matriz A serão 0 ou 1 (no caso de grafos não-valorados), de acordo com a regra: a ij = 1, se existe um arco entre n i e n j ; a ij = 0, caso não exista nenhum arco entre n i e n j. Figura 11: Exemplo de Matriz de Incidência.

1.4 Teoria dos Grafos 32 A coleção de listas de adjacências é a representação geralmente utilizada, porque ela fornece uma forma compacta de representar grafos esparsos, nos quais A é muito menor do que N 2. Porém, a representação da matriz de adjacência pode ser utilizada quando o grafo é denso ( A é próximo de N 2 ), ou quando é preciso capacidade para responder, rapidamente, se um arco conecta dois nós informados (VEIGA, 2002).

2 Redes Bayesianas 2.1 Definição de Rede Bayesiana Uma Rede Bayesiana (RB) é um grafo orientado em que cada nó é identificado com informações de probabilidade quantitativa. O conjunto de variáveis aleatórias constitui os nós da rede. Um conjunto de vínculos orientado conecta pares de nós (se houver um vínculo do nó X até o nó Y, X será denominado pai de Y). Cada nó X i tem uma distribuição de probabilidade condicional P(X i Pais(X i )) que quantifica o efeito dos pais sobre o nó. O grafo não tem nenhum ciclo orientado (RUSSEL, 2004). Segundo Carneiro et al. (2000), as Redes Bayesianas representam a incerteza, tomandose por base a teoria da probabilidade, e exploram a esparcidade das relações entre as variáveis. Considere o exemplo 1 a seguir: Você tem um novo alarme contra assaltantes em sua casa. Ele é bastante confiável na detecção de roubos, mas também responde ocasionalmente a pequenos terremotos. Você também tem dois vizinhos, João e Maria, que prometeram chamá-lo no trabalho quando ouvirem o alarme. João sempre chama quando ouve o alarme, mas às vezes confunde o toque do telefone com o alarme e também liga ao ouvi-lo. Por outro lado, Maria gosta de ouvir música em alto volume e às vezes esquece completamente o alarme. A Figura 12 representa uma típica Rede Bayesiana, mostrando a topologia e também as tabelas de probabilidade condicional (TPC). Nas TPCs, as letras R, T, A, J, M representam Roubo, Terremoto, Alarme, JoãoLiga, MariaLiga, respectivamente. 1 Exemplo retirado de Russell e Norvig (2004, p. 481).

2.2 Semântica das Redes Bayesianas 34 Figura 12: Exemplo de Rede Bayesiana. 2.2 Semântica das Redes Bayesianas Há duas maneiras de compreender a semântica das Redes Bayesianas. A primeira é ver a rede como uma representação da distribuição de probabilidade conjunta. A segunda maneira é visualizá-la como uma codificação de uma coleção de declarações de independência condicional. As duas visões são equivalentes. A primeira mostra-se útil na compreensão de como construir redes, já a segunda é útil no projeto de procedimentos de inferência. 2.2.1 A Rede como uma Representação da Distribuição de Probabilidade Conjunta Segundo Russell (2004), na representação da distribuição conjunta total, uma Rede Bayesiana fornece uma descrição completa do domínio. Toda entrada na distribuição de probabilidade conjunta total pode ser calculada a partir das informações armazenadas na rede. Uma entrada genérica na distribuição conjunta é a probabilidade de uma conjunção de atribuições específicas a cada variável. O valor dessa entrada é dado pela fórmula: n P (x 1,..., x n ) = P (x i pais(x i )) (2.1) i=1 em que pais(x i ) denota os valores específicos das variáveis em Pais(X i ). Desse modo, cada entrada na distribuição conjunta é representada pelo produto dos

2.2 Semântica das Redes Bayesianas 35 elementos apropriados das tabelas de probabilidade condicional na Rede Bayesiana. Para a construção de uma Rede Bayesiana, de forma que a distribuição conjunta resultante seja uma representação do domínio, faz-se necessário que a distribuição conjunta seja reescrita em termos de uma probabilidade condicional. Usando a regra do produto, tem-se: P (x 1,..., x n ) = P (x n x n 1,..., x 1 )P (x n 1,..., x 1 ). (2.2) Em seguida, repete-se o processo, reduzindo cada probabilidade conjunta a uma probabilidade condicional e a uma conjunção menor. Termina-se com um grande produto: n P (x 1,.., x n ) = P (x n x n 1,.., x 1 )P (x n 1 x n 2,.., x 1 )..P (x 2 x 1 )P (x 1 ) = P (x i x i 1,.., x 1 ). i=1 (2.3) Comparando-a com a equação 2.1, verifica-se que a especificação da distribuição conjunta é equivalente à asserção geral de que, para toda variável X i na rede, tem-se: P (X i X i 1,..., X 1 ) = P (X i P ais(x i )) (2.4) Pode-se dizer, com a equação 2.4, que uma Rede Bayesiana é uma representação correta do domínio somente se cada nó é condicionalmente independente de seus predecessores na ordenação de nós, dados os seus pais. 2.2.2 A Rede como uma Codificação de uma Coleção de Declarações de Independência Condicional Para construir uma Rede Bayesiana, pode-se seguir um sentido inverso daquele em que um nó é incondicionalmente independente de seus predecessores, dados seus pais. Pode-se começar de uma semântica topológica, que especifique os relacionamentos de independência condicional codificados pela estrutura do grafo e, a partir deles, derivar a semântica numérica. A semântica topológica, como, mostado na figura 13, é dada por uma das especificações a seguir (RUSSELL, 2004): Um nó é condicionalmente independente de seus não-descendentes, dados seus pais. Um nó é condicionalmente independente de todos os outros nós na rede, dados seus

2.3 Aprendizado Bayesiano 36 pais, filhos e pais dos filhos - isto é, dada sua cobertura de Markov. Figura 13: (a) Um nó X é condicionalmente independênte de seus não-descendentes (por exemplo, os nós Z ij ) dados seus pais (os nós U i mostrados na área cinza). (b) Um nó X é condicionalmente independêntes de todos os outros nós da rede, dada sua cobertura de Markov (a área cinza). 2.3 Aprendizado Bayesiano Aprendizado, no contexto das Redes Bayesianas, é um processo que possui como entrada um conjunto de dados e informações a priori, e como saída uma Rede Bayesiana. O processo de aprendizado em Redes Bayesianas deve: aprender as distribuições de probabilidades (parâmetros numéricos) de uma rede e identificar a sua estrutura, ou seja, identificar as relações de interdependência dadas pelos arcos (JÚNIOR, 2003). De uma maneira geral, pode-se dizer que os métodos bayesianos de aprendizado de Redes Bayesianas dividem-se em duas classes principais. Na primeira classe, estão os algoritmos que utilizam métodos de busca heurística para construir um modelo e avaliálo por meio de métodos de pontuação. Já na segunda classe, estão os algoritmos que se utilizam do conceito de independência condicional para a construção da rede. Como não se pode definir uma classe como sendo a melhor, existem ainda trabalhos que implementam versões híbridas, que combinam as duas classes.

2.3 Aprendizado Bayesiano 37 2.3.1 Método de Busca e Pontuação Para os algoritmos deste enfoque, o problema aprender reduz-se ao problema de buscar uma estrutura que melhor se encaixe aos dados. Iniciam com um grafo sem arcos e é usado algum método de busca para adicionar um arco ao grafo. Depois, é utilizado um método de pontuação para identificar se a nova estrutura é melhor do que a antiga. Caso positivo, o novo arco adicionado é mantido, procurando-se adicionar outro. Este processo se repete até que nenhuma estrutura nova seja melhor do que a estrutura atual (CARNEIRO et al., 2000). Na construção da estrutura, muitas redes são geradas e comparadas a fim de decidir qual é a melhor estrutura. Medidas de qualidade são utilizadas para comparar as estruturas de forma a ranqueá-las e permitir a escolha da estrutura que melhor representa a distribuição de probabilidade conjunta das variáveis envolvidas no domínio em questão. Segundo Carneiro (1999), na avaliação da estrutura, pode-se aplicar diferentes métodos de pontuação, tais como: Pontuação Bayesiana: a idéia básica destes métodos é obter uma medida de qualidade de uma determinada estrutura de rede, calculando a probabilidade relativa dessa estrutura, dado um banco de dados de casos. São métodos que adotam uma distribuição de probabilidade a priori (P) sobre todo o espaço de estruturas. Dado um banco de dados de casos, a distribuição P é atualizada, resultando em uma distribuição a posteriori sobre o espaço de estruturas. Os algoritmos que se utilizam deste método de pontuação exploram o espaço de estruturas e retornam a estrutura que maximiza a distribuição a posteriori. Métodos baseados na entropia: entropia é considerada uma medida não-negativa de informação em uma distribuição. Quanto maior a entropia, menos informativa é a distribuição. Estes métodos implementam o aprendizado de Redes Bayesianas, quantificando uma Rede Bayesiana selecionada que represente uma distribuição com baixa entropia: a rede é selecionada escolhendo-se uma estrutura e estimando-se suas probabilidades condicionais a partir de um banco de dados. A medida relativa que dá a distância entre duas distribuições, P e P, é chamada entropia cruzada. Quanto maior a entropia cruzada, mais diferem P e P. Métodos baseados no princípio minimum descripition length (MDL). Maiores detalhes em Suzuki (1996) e Lam e Bacchus (1996).

2.3 Aprendizado Bayesiano 38 Métodos baseados em minimum message length (MML). Em Wallace et al. (1996) pode-se encontrar maiores detalhes. O algoritmo utilizado para levantar a estrutura da rede desse trabalho foi o algoritmo de Chow-Liu que pertence à categoria de busca e pontuação. A idéia básica da Árvores de Chow-Liu é comparar distribuições diferentes sobre duas variáveis no domínio que são estimadas, a partir de bancos de dados. Na primeira distribuição, as duas variáveis são consideradas dependentes. Na segunda, elas são tomadas por independentes. Um grafo não-direcionado é formado quando iniciado por um grafo sem arcos, adicionando-se um arco entre dois nós com máxima entropia. Logo após, um arco com máxima entropia associada é adicionado, desde que não crie um ciclo no grafo. Este processo é repetido até que não seja possível adicionar arcos. O passo final consiste em associar direções aos arcos de maneira a formar uma árvore. O algoritmo de Chow-Liu é dividido em duas fases: Primeira fase: geração da árvore ponderada máxima, que produz um grafo nãodirecionado contendo, a relação das variáveis do problema. Segunda fase: definição da direcionalidade dos arcos. passos: Segundo Pearl (1988), a primeira fase é descrita na forma de algoritmo com cinco 1. A partir de uma dada distribuição P(x), computam-se as distribuições conjuntas P(x i,x j ) para todos os pares de variáveis. 2. Utilizando-se as distribuições calculadas no passo 1, calculam-se os pesos para todos os n(n-1)/2 ramos da árvore, que devem ser ordenados por ordem de magnitude. Esses pesos são calculados pela equação da informação mútua. O desenvolvimento dessa equação pode ser vista no trabalho de Pearl (1988). P (x i, x j ) = x i,x j P (x i, x j )log P (x i, x j ) P (x i )P (x j ). (2.5) 3. Associam-se os dois ramos de maior peso à arvore a ser construída. 4. O próximo ramo da lista, já ordenada, deve ser acrescentado à árvore, contanto que não seja criado um ciclo. Caso isto aconteça, este ramo deve ser destacado e o próximo deve ser selecionado.

2.3 Aprendizado Bayesiano 39 5. Repete-se o passo 4 até que n-1 ramos tenham sido selecionados. Nesse ponto, o esqueleto da árvore está construído. A segunda fase direciona os arcos, calculando a projeção de probabilidade de P (x) sobre a distribuição P(x), selecionando um nó arbitrário para a raiz e formando o produto dado pela equação: n P (x) = P (x i P ais(x i )) (2.6) i=1 Sua complexidade é O(n 2 ) e se utiliza apenas de comparações de pesos dos ramos. Além do Algoritmo de Chow-Liu, existem outros algoritmos pertencentes à categoria de busca e pontuação, conforme pode ser verificado em Carneiro (1999). Poliárvores de Rabane-Pearl: a estrutura básica da poliárvore é gerada através do método de Chow-Liu, e, em seguida, aplicando-se a esta estrutura o algoritmo de recuperação de poliárvores, obtém-se a representação gráfica da distribuição. Este algoritmo só recupera a poliárvore caso ela seja um mapa perfeito 2 da distribuição a ser representada. Kutató: o algoritmo Kutató aplica um algoritmo de busca que utiliza a técnica gulosa entre as estruturas de rede, selecionando aquela com a menor entropia associada, que representa a distribuição mais expressiva. É requerida uma ordenação das variáveis. K2: é o algoritmo representativo dos algoritmos baseados em busca e pontuação para aprendizado de Redes Bayesianas. Ele toma como entrada um conjunto de dados e constrói uma estrutura de rede de crença como saída. HGC: desenvolvido por Heckerman, Gêiser e Chickering, é um algoritmo baseado em pontuação Bayesiana. A importância deste trabalho é que, pelo estudo de propriedades consistentes e suposições de métodos de pontuação, eles encontraram duas suposições, chamadas modularidade de parâmetros e equivalência de eventos. Wong-Xiang: é um algoritmo de aprendizado de redes Markovianas baseado em entropia. Este algoritmo sempre pode aprender uma rede de Markov, que é um I-map (mapa de Independência) do modelo, e, quando o modelo em questão é uma 2 Se um Grafo G é um D-map (Mapa de Dependência) e um I-map (Mapa de Independência) de M, então é considerado um mapa perfeito.