Análise de confiabilidade populacional pelo hibridismo entre redes Bayesianas e bootstrap paramétrico

Documentos relacionados
Inferência Bayesiana para estimação da taxa de falha de bombas de um sistema de resfriamento de uma usina nuclear

Décimo Quinto Encontro Regional Ibero-americano do CIGRÉ Foz do Iguaçu-PR, Brasil 19 a 23 de maio de 2013

Introdução ao tema das Redes Bayesianas

Modelagem da incerteza pela Inferência Bayesiana em um Estudo de Caso de Doenças Lombares

Redes Bayesianas. Disciplina: Inteligência Artificial Prof.: Cedric Luiz de Carvalho

Inteligência Artificial

2 Medida de Incertezas: Fundamentos

ESTATÍSTICA EXPLORATÓRIA

Linha Técnica Sessão I: Inferência Causal

Funções Geradoras de Variáveis Aleatórias. Simulação Discreta de Sistemas - Prof. Paulo Freitas - UFSC/CTC/INE

Aula 2. ESTATÍSTICA E TEORIA DAS PROBABILIDADES Conceitos Básicos

MODELO DE DECISÃO PARA ESCOLHA DE PORTFOLIO DE INVESTIMENTOS

CE001 - BIOESTATÍSTICA TESTE DO QUI-QUADRADO

AULA 07 Inferência a Partir de Duas Amostras

Fernando Nogueira Simulação 1

Instrumentação Industrial. Fundamentos de Instrumentação Industrial: Introdução a Metrologia Incerteza na Medição

Introdução aos Proc. Estocásticos - ENG 430

Noções de Simulação. Ciências Contábeis - FEA - Noturno. 2 o Semestre MAE0219 (IME-USP) Noções de Simulação 2 o Semestre / 23

Aprendizado Bayesiano Anteriormente...

CE Estatística I

Aula 10 Estimação e Intervalo de Confiança

Estatística Aplicada. Árvore de Decisão. Prof. Carlos Alberto Stechhahn PARTE II. Administração. p(a/b) = n(a B)/ n(b)

Máquinas de suporte vetorial e sua aplicação na detecção de spam

Desenvolvimento de uma Abordagem Híbrida Difuso-Probabilística para a Modelagem de Incerteza

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA

UMA METODOLOGIA PARA ANÁLISE DE CONFIABILIDADE DE SISTEMAS COMPLEXOS

TE802 Processos Estocásticos em Engenharia. Informação sobre a disciplina Notes. Processos Estocásticos em Engenharia Conteúdo Notes.

Métodos Estatísticos em Física Experimental

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística

Testes de Significância Estatística para Avaliação de Algoritmos

Análise de séries temporais. Prof. Thaís C O Fonseca DME - UFRJ

Prof. Lorí Viali, Dr.

P. P. G. em Agricultura de Precisão DPADP0803: Geoestatística (Prof. Dr. Elódio Sebem)

Inferência Estatística: DEEST/UFOP Prof.: Spencer Barbosa da Silva

3 Redes Neurais Artificiais

Inteligência Artificial. Conceitos Gerais

i. f Y (y, θ) = 1/θ... 0 y θ 0... y < 0 ou y > θ Se a amostra selecionada foi ( ), qual será a estimativa para θ?

Pontifícia Universidade Católica de São Paulo Programa de TIDD

Filtro de Kalman. Teoria e Aplicação para Iniciantes. Prof. Dr. Marco Antonio Leonel Caetano. M&V Consultoria e Treinamento

SUMÁRIO. Prefácio, Espaço amostrai, Definição de probabilidade, Probabilidades finitas dos espaços amostrais fin itos, 20

TÉCNICAS DE AMOSTRAGEM

Modelagem do comportamento da variação do índice IBOVESPA através da metodologia de séries temporais

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Conhecimento e Raciocínio Agente Lógicos Capítulo 7. Leliane Nunes de Barros

PROPAGAÇÃO DE ERROS Conceitos básicos. Limitação das medições experimentais: há sempre uma incerteza associada.

Pesquisa Operacional Introdução. Profa. Alessandra Martins Coelho

Probabilidade - aula II

PROCESSOS ESTOCÁSTICOS

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

Avaliação Quantitativa de Sistemas

Centro Internacional de Pobreza (PNUD/IPEA) Fabio Veras Soares. Estimação do Impacto de Múltiplos Tratamentos e do. Escore de Propensão Generalizado

Princípios de Bioestatística Teste de Hipóteses

Teoria dos Jogos Algorítmica Maximização de Lucros no Design de Mecanismos

I - Introdução à Simulação

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

APLICAÇÃO DE NÚMEROS FUZZY TRIANGULARES EM ANÁLISES DE INVESTIMENTOS EM SITUAÇÕES DE INCERTEZA - MÉTODO BASEADO NA TEORIA DOS JOGOS

Teste de hipóteses para uma média populacional com variância conhecida e desconhecida

AULAS 14 E 15 Modelo de regressão simples

CLASSIFICADORES BAEYSIANOS

Buscas Informadas ou Heurísticas - Parte II

Modelos e Modelagem. Roteiro

Análise de clusters usando classes latentes

Intervalos Estatísticos para uma única Amostra - parte I

Testes de Hipóteses Paramétricos

01/06/2016. Semiprobabilística. Amostra. Amostra Probabilística. Bioestatística. Amostra Não probabilística TÉCNICAS DE AMOSTRAGEM

MATEMÁTICA NÍVEL MÉDIO

Teoria das Probabilidades

Para ajudar a interpretar os resultados, o Cartão de Relatórios do Assistente do teste de % de defeituosos para 1 amostra exibe os seguintes

ESCOLA SECUNDÁRIA JERÓNIMO EMILIANO DE ANDRADE DE ANGRA DO HEROÍSMO

Probabilidade - aula II

Principais Conceitos em Estatística

TECNOLOGIAS E FERRAMENTAS DE GERAÇÃO DE CONHECIMENTO PARA SUPORTE À DECISÃO NO ACESSO E PERMANÊNCIA AS UNIVERDIDADES: APLICAÇÃO NOS DADOS DO ENEM.

Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 02 / Processos Aleatórios

Aprendizado por Árvores de Decisão

Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas

Distribuição Amostral e Estimação Pontual de Parâmetros

Universidade Federal do ABC Rua Santa Adélia, Bairro Bangu - Santo André - SP - Brasil CEP Telefone/Fax:

Estudo sobre a dependência espacial da dengue em Salvador no ano de 2002: Uma aplicação do Índice de Moran

INE 6006 MÉTODOS ESTATÍSTICOS

DISCIPLINA: PROBABILIDADE E ESTATÍSTICA TURMA: Informática de Gestão

Sistema Bayesiano de Avaliação Nutricional Via Web

Resolução de Problemas. Universidade Católica de Pelotas Engenharia da Computação Disciplina: Inteligência Artificial

ESCOLA SUPERIOR DE TECNOLOGIA E GESTÃO

Enunciados Quantificados Equivalentes

Conjuntos Fuzzy e Lógica Fuzzy

TESTE DO QUI-QUADRADO DE INDEPENDÊNCIA

Roteiro. Raciocínio Probabilístico. Sistemas Inteligentes. PARTE I - Introdução. Incerteza. Incerteza. Parte I. Parte II. Parte III.

Análise dos Resultados da Simulação

17/07/2017. Semiprobabilística. Amostra. Amostra Probabilística. Estatística. Amostra Não probabilística TÉCNICAS DE AMOSTRAGEM NOÇÕES DE AMOSTRAGEM

PERT PERT PERT PERT PERT PERT. O CPM assume que as estimativas de tempo para um projeto são certas (determinísticas);

AULA 02 Distribuição de Probabilidade Normal

PROJETO E ANÁLISES DE EXPERIMENTOS (PAE) INTRODUÇÃO AOS MÉTODOS ESTATÍSTICOS EM ENGENHARIA

Otimização por Colônia de Formigas (Ant Colony Optimization - ACO)

Plano. Aspectos Relevantes de HMMs. Teoria de HMMs. Introdução aos Modelos Escondidos de Markov

VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DE PROBABILIDADE

Aspectos Computacionais do Desenvolvimento de uma Biblioteca para Desenho de Redes Bayesianas

Medidas de Dispersão ou variabilidade

Comportamento Unimodal da Distribuição Beta Binomial Negativa

6.2 Análise da Viabilidade do Lançamento de um Produto 27

Transcrição:

Análise de confiabilidade populacional pelo hibridismo entre redes Bayesianas e bootstrap paramétrico Paulo Renato Alves Firmino (UFPE) praf62@yahoo.com Enrique López Droguett (UFPE) ealopez@ufpe.br Resumo Redes Bayesianas (RBs) são um formalismo que modelam determinado contexto da realidade a partir das relações causais entre suas variáveis componentes. A modelagem e análise de sistemas complexos em geral, e em particular problemas da análise probabilística de riscos e de confiabilidade, tornam-se mais realistas e precisas quando se aplica o artefato de RBs. Uma RB acumula conceitos de comportamento humano, matemática, probabilidade e computação, permitindo a estimação de parâmetros das mais diversas naturezas. Uma das características marcantes de RBs reside na possibilidade de se inferir sobre um indivíduo ou sobre a população da qual este faz parte, diante de novas evidências a respeito do mesmo. Contudo, existe uma grande dificuldade em incorporar novas evidências à rede de forma a promover uma atualização de crenças populacionais quando sua quantificação inicial é realizada subjetivamente ou quando não se tem acesso aos dados empíricos utilizados para tal quantificação. Este artigo propõe uma maneira de tratar esse problema através do hibridismo entre RBs e a técnica bootstrap paramétrico. O objetivo é construir um banco de dados por replicagem que retrate a população geradora das informações parametrizadas em uma RB, tornando possível inferências populacionais através do cálculo freqüentista das probabilidades. Palavras chave: Redes Bayesianas; Bootstrap Paramétrico; Inferência Freqüentista.. Introdução Atualmente, RBs despontam como a solução para muitas das deficiências das técnicas componentes da análise probabilística de riscos e de confiabilidade. Suposições irreais de independência, dificuldades para representar incertezas e limitação da escala de possíveis resultados das variáveis envolvidas são alguns dos problemas contornados por RBs quando direcionadas, por exemplo, a problemas das análises de: confiabilidade humana, árvores de falhas e de eventos. A abordagem deste tema é dada por Firmino & Droguett (2004), sendo o problema da análise de confiabilidade humana tratado em detalhes por Menêzes et al. (2005). Além das contribuições já apontadas, um outro importante atrativo para a utilização de RBs refere-se a sua capacidade de realizar inferências tanto sobre indivíduos quanto sobre a população da qual tais indivíduos provém. Porém, a partir das definições de a 4, expõe-se um problema da inferência populacional que requer cuidados. Definição : Um indivíduo é uma unidade populacional em análise que possui todos os atributos (variáveis) modelados por uma específica RB. Definição 2: Diz-se que um indivíduo é parcialmente conhecido quando não se observa todos os seus atributos. Caso contrário, diz-se que o indivíduo em questão é totalmente conhecido. Definição 3: Uma inferência individual permite avaliar probabilisticamente características desconhecidas de um indivíduo parcialmente conhecido provindo da população. Definição 4: Uma inferência populacional permite atualizar a amostra na qual se baseia a RB, a partir de indivíduos total ou parcialmente conhecidos. ENEGEP 2005 ABEPRO 529

As definições acima, podem ser visualizadas através da Figura, onde para uma dada população tem-se uma amostra na qual baseia-se a RB. Tal RB permite avaliar indivíduos parcialmente conhecidos (arco ) e atualizar-se devido aos mesmos ou devido a indivíduos totalmente conhecidos, uma vez que a amostra modelada é atualizada (arco 2). 2- Inf. Popul. POPULAÇÃO Amostra RB - Inf. Indiv. Indivíduo Figura - Processo para inferência individual e populacional por RBs Ainda nas definições de a 4, nota-se que inferências individuais são necessárias apenas quando um indivíduo é parcialmente conhecido. Assim, seja um indivíduo parcialmente conhecido Ip da população e seja o seu conjunto de atributos conhecidos (ou evidências) denominados por E. Da amostra populacional na qual baseia-se a RB, seleciona-se os indivíduos cujos atributos do conjunto E coincidem com os de Ip, aqui chamados de CIp. A partir dos indivíduos de CIp, infere-se sobre os atributos desconhecidos de Ip. Já para a inferência populacional, tem-se que independente de um indivíduo I ser parcial ou totalmente conhecido, as inferências populacionais devem ser atualizadas, já que sabe-se mais sobre a população através de I. O exemplo a seguir permite uma compreensão mais intuitiva dos conceitos de inferência individual e populacional: Em um problema de confiabilidade humana, sabe-se que o desempenho de um operador em fase de treinamento (Y) é influenciado pela simples presença de um supervisor (X). No exemplo acima, a população em estudo é na verdade todas as oportunidades em que requisitou-se a atuação de um operador em treinamento (Y) sob os cuidados de um supervisor (X), definido o contexto em questão. Um indivíduo, I, provindo desta população seria cada oportunidade em que se observou ao menos um dos atributos (X I ou Y I ). Se todos os atributos de I são observados, é dito que I é totalmente conhecido, caso contrário I é parcialmente conhecido. Supondo que observou-se apenas Y I =y I (o erro de um operador em treinamento, por exemplo) é possível inferir sobre os atributos não conhecidos de I, X I neste caso, através do procedimento de inferência individual e, além disso, inferir populacionalmente ao menos sobre Y I, já que sabe-se mais a seu respeito. Logo, não é difícil perceber que as inferências populacionais expressam o aprendizado da rede quando posta em uso. Através deste aprendizado, tem-se o suporte para avaliar o comportamento do sistema (ou problema real) modelado diante da implementação da análise probabilística de riscos baseada nas medidas de confiabilidade extraídas da RB. Assim como outros problemas relacionados à análise de RBs, há uma grande dificuldade em introduzir a elas novas evidências de maneira a possibilitar inferências populacionais atualizadas. Tradicionalmente, isto só é possível quando se tem acesso ao banco de dados empíricos usado para a quantificação da RB (também chamado de dados de referência) ou quando esta caracteriza-se como um modelo hierárquico. Infelizmente, são necessárias muitas suposições para que uma dada RB assuma o formato de um modelo hierárquico, assim como é bastante comum que não se tenha acesso ao dados de referência para a quantificação da rede, em se tratando de sistemas modelados por técnicas da análise probabilística de riscos e de confiabilidade. Por exemplo, um dos grandes entraves para a introdução de RBs na análise de confiabilidade é o problema da escassez de dados propriamente ditos. Assim, técnicas da engenharia do conhecimento têm sido adotadas ENEGEP 2005 ABEPRO 530

objetivando a quantificação subjetiva de RBs através de processos de edução da opinião de especialistas (ver Firmino et al. 2005). Quando uma RB é inicialmente quantificada por processos de edução, presupõe-se não haver registros capazes de traduzir as experiências dos especialistas; por isso recorre-se a eles. Em casos como este, inferências populacionais tornam-se um grande desafio. Logo, propõe-se neste trabalho uma maneira para tratar das dificuldades encontradas em atualizar estados de crença populacionais em análises de confiabilidade via RBs inicialmente quantificadas de maneira subjetiva ou cujo acesso aos dados de referência não é possível. O que se deseja é, a partir de uma RB quantificada, replicar um banco de dados baseados nos seus parâmetros através da técnica bootstrap paramétrico. Desta forma, a complexidade de se realizar inferências populacionais resume-se ao problema da estimação da probabilidade por freqüências relativas. Na próxima seção, o artigo traz os conceitos básicos de RBs concentrando-se na atualização de crenças individuais e populacionais. Na seção 3, apresenta-se o problema da inferência populacional e na seção 4 propõe-se a introdução do método de replicagem bootstrap paramétrico como possível solução. Na seção 5, são expostas as idéias fundamentais do trabalho através de um exemplo e o artigo conclui-se na seção 6. 2. Inferência por RBs Uma RB é um grafo acíclico direcionado (DAG) onde os nós representam variáveis aleatórias e os arcos direcionados ilustram as relações de causa e efeito entre tais variáveis (Pearl, 988). Para o problema de confiabilidade humana apresentado na seção, tem-se o DAG exibido na Figura 2, onde o desempenho de um operador em fase de treinamento (Y) e a presença de um supervisor (X) são dicotômicas, ou seja, assumem apenas dois valores, 0 ou, por exemplo. Diz-se que X exerce influência sobre Y e que as probabilidades condicionais P(Y=0 X=0) e P(Y=0 X=) informam o poder da causalidade entre X e o resultado Y=0. Essas duas probabilidades junto com P(X=0) compõem o conjunto de parâmetros de quantificação da RB. X Y Figura 2- DAG referente ao exemplo proposto na seção A propagação de evidências em RBs baseia-se no teorema de Bayes, que para um conjunto de evidências, E, atualiza os estados de crença de variáveis não evidenciadas, V, pela seguinte igualdade: P(V E)=αP(V)P(E V), onde α é um fator de normalização Equação Retornando à RB apresentada no início da seção, pode-se calcular os graus de crença sobre X, dado que Y= (dado que não houve um erro do operador em treinamento). Nessas condições, calcula-se a posteriori P(X=0 Y=)=αP(X=0)P(Y= X=0). Se por outro lado evidencia-se X=0 (que o supervisor está presente), tem-se P(Y=0 X=0). Além de evidências empíricas como as citadas acima, Y= e X=0, pode-se incorporar também evidências subjetivas por RBs. Evidências subjetivas são expressas por razões de verossimilhança. Nesse tipo de evidência substitui-se declarações como O supervisor estava presente por É duas vezes mais provável que o supervisor estivesse presente do que ausente. A propagação às demais variáveis é desempenhada mais uma vez pela regra de Bayes (KORB & NICHOLSON, 2003). Embora as inferências apresentadas até aqui direcionem-se geralmente a indivíduos, elas podem caracterizar-se também como populacionais. Isto ocorre quando a rede adequa-se a um modelo hierárquico ou, como Russel & Norvig (2004) denominam, modelo de Bayes ENEGEP 2005 ABEPRO 53

ingênuo. Segundo Bernardo & Smith (995), modelos hierárquicos tornaram-se conhecidos como métodos de Bayes empírico por calibrarem as crenças sobre parâmetros diante de dados gerados pelo fenômeno probabilístico baseado em tais parâmetros. Em geral, modelos hierárquicos têm a forma tal como na Figura 3 (a), modelados como na Figura 3 (b). (a) φ Θ Θ 2 Θ X X 2...... X (b) ~ 2 i= P( φ ) P( θ φ) = P( θ, θ,..., θ φ) = P( θ φ) P( x θ ) = P( x, x,..., x θ, θ,..., θ ) = P( x θ ) ~ ~ 2 2 i= i i i Figura 3- Modelos hierárquicos As variáveis observáveis são X, X 2,..., X e os parâmetros θ i s podem representar fenômenos probabilísticos de populações locais geradores dos x i s, enquanto que o parâmetro φ pode representar algum parâmetro populacional geral que influencia os θ i s. Quando observa-se um conjunto de evidências x, x 2,..., x, tanto o conjunto de θ i s quanto φ têm seus graus de crença atualizados e representados através das suas posteriores, calculadas pela regra de Bayes. O exemplo de confiabilidade humana citado anteriormente permitiria uma abordagem por modelos hierárquicos apenas se, entre outras coisas, não fosse possível observar a presença (ou ausência) do supervisor. Contudo, há muitas formas de se verificar tal proposição. Infelizmente, problemas modelados por técnicas de análise de confiabilidade, tais como árvores de falhas, árvores de eventos e análise de confiabilidade humana, distanciam-se de modelos hierárquicos. Isto porque apresentam maior facilidade de observação justamente sobre as variáveis chamadas de causas iniciais, isto é, cujas causas não são analisadas (φ no modelo exibido na Figura 3). Árvores de falhas postulam um evento indesejável como topo e deduzem sistematicamente suas causas até que se alcance as causas iniciais passíveis de mensuração; árvores de eventos tradicionalmente são resolvidas hibridamente com árvores de falhas (Modarres et al. 999) e modelos recentes de análise de confiabilidade humana enfatizam fatores de desempenho humano mensuráveis, tais como carga de trabalho, condições climáticas e tempo para realizar a tarefa, como causas iniciais nas modelagens (Mosleh & Chang, 2004). 3. O problema da inferência populacional Inferências populacionais destinam-se ao comportamento da população em vez de indivíduos específicos. Retornando à RB dirigida ao problema de confiabilidade humana apresentado na seção, infere-se sobre a população através das probabilidades P(X=0) e P(Y=0)= x P(X=x)P(Y=0 X=x), onde x=0,. Isso significa dizer que a probabilidade de um supervisor qualquer possuir a característica X=0 (supervisionar adequadamente) e de um operador qualquer em treinamento levar a Y=0 (operação errada) podem ser estimadas. Entretanto, caso evidenciem-se erros tanto de um supervisor quanto de um operador em treinamento [o par (X=, Y=0)] as probabilidades populacionais P(X=0) e P(Y=0) devem ser atualizadas, já que sabe-se mais sobre tais variáveis. De maneira freqüentista, ter-se-ia: P(X=0)=n X=0 /N X e P(Y=0)=n Y=0 /N Y, onde n A=0 é a quantidade de vezes em que se observou A=0 em N A oportunidades. Equação 2 ENEGEP 2005 ABEPRO 532

Caso seja observado no problema de confiabilidade humana um erro de um operador em treinamento (Y=0) mas não constate-se a presença ou ausência do seu supervisor (X), é possível inferir populacionalmente sobre X a partir de uma inferência individual sobre o mesmo, dada a evidência Y=0. Para tanto, basta considerar razoável supor que, por exemplo, o evento mais provável entre X=0 Y=0 ou X= Y=0 aconteceria e subseqüentemente utilizar o raciocínio freqüentista da Equação 2. Esta técnica é conhecida como máximo a posteriori (MAP) mas pode-se adotar outras, como a da esperança-maximização (EM) ou a da máxima probabilidade (MP). Ver Russel & Norvig (2004) para maiores detalhes. O problema da inferência populacional por RBs apresenta-se devido à necessidade de dados propriamente ditos. A inferência freqüentista utiliza informações características de bancos de dados ao dividir a quantidade de casos favoráveis pela quantidade de vezes em que determinada variável foi observada (Equação 2). Como comentado na seção, esse tipo de abordagem encontra problemas ao lidar com RBs inicialmente quantificadas através de protocolos de edução do conhecimento de especialistas ou cujos dados de referência não podem ser acessados. Nesses casos não haverá estruturas de dados com indivíduos enumerados e seus respectivos atributos registrados. 4. Hibridismo proposto Nesta seção, propõe-se uma maneira para introduzir novas evidências de forma a atualizar graus de crenças populacionais em RBs inicialmente quantificadas por processos de edução ou cujos dados de referência não podem ser acessados. A idéia é construir um banco de dados baseados nas probabilidades condicionais atribuídas às variáveis componentes da RB em questão. Tal banco de dados é gerado via a técnica de replicagem bootstrap paramétrico auxiliado por técnicas de simulação estocástica. A simulação estocástica é um método de cálculo de probabilidades por contagem da freqüência em que os eventos ocorrem em uma série de iterações executadas (Pearl, 988). Uma RB pode ser usada para gerar amostras aleatórias de suas configurações hipotéticas prováveis. Ordenando-se as variáveis que compõem a RB, atribui-se seus valores iniciais e para cada variável avalia-se a probabilidade de o processo permanecer em seu atual estado ou mudar para um outro, considerando a probabilidade de mudança da variável em questão, condicionada aos atuais valores das demais variáveis. Ao término da avaliação da última variável, completa-se uma iteração e um indivíduo hipotético é gerado. Este método de simulação estocástica é uma extensão do método MCMC, conhecido como Gibbs Sampler (Geman & Geman, 984). O método bootstrap replica uma distribuição desconhecida F através de uma distribuição conhecida Fˆ com o uso do cálculo das probabilidades. Quando tem-se uma amostra de dados provenientes de F, aproxima-se F por Fˆ e então realiza-se as inferências desejadas através da estatística freqüentista. Quando assume-se que Fˆ representa bem F, realiza-se replicagens de Fˆ através da técnica conhecida como bootstrap paramétrico (DeGroot & Schervish, 2002). Como o presente trabalho trata de RBs parametrizadas por experiências de indivíduos ou registros inacessíveis, supõe-se que tais parâmetros são uma boa representação de F e que baseando-se neles pode-se replicar indivíduos regidos por F. Além da utilização de técnicas de simulação estocástica para a replicagem por bootstrap paramétrico, faz-se necessário definir quantos indivíduos devem ser considerados no banco de dados gerado. Sugere-se a utilização de um processo de edução destinado ao número de amostras relacionado a cada variável da rede, tal como o proposto por Firmino et al. (2005). O procedimento para a aplicação de bootstrap paramétrico via Gibbs Sampler adota as seguintes etapas: ENEGEP 2005 ABEPRO 533

a) Define-se para cada distribuição de probabilidades (ou função de densidade) condicionais da RB o tamanho amostral relacionado, através de processos de edução; b) Aplica-se o Gibbs Sampler para a geração de n indivíduos, onde n é razoavelmente maior que o maior dos tamanhos amostrais estimados na etapa anterior; c) Seleciona-se dentre os últimos indivíduos gerados, aqueles que representarão os indivíduos nos quais as distribuições de probabilidades (ou funções de densidade) condicionais se basearam; d) Se necessário, trata-se dos indivíduos parcialmente conhecidos devido aos tamanhos amostrais diferentes calculados em (a), através de algoritmos de inferência individual tais como o EM, o MAP ou o MP, por exemplo. Após aplicado o método de bootstrap paramétrico, ter-se-á um banco de dados baseados nos parâmetros da RB. Com a chegada de novos indivíduos, a complexidade da inferência populacional atualizada resumer-se-á a um problema de contagem, sendo necessária apenas a aplicação da Equação 2. Faz-se importante comentar que o algoritmo acima considera os últimos indivíduos gerados devido aos valores iniciais atribuídos às variáveis da rede não satisfazerem qualquer critério. Assim, adota-se um período de burn-in para que as amostras geradas contabilizadas ao final do processo de replicagem não sejam influenciadas pelos estados iniciais das variáveis envolvidas (ver GILKS et al. 996 e GEYER, 992). Mostra-se pertinente ressaltar, também, que o algoritmo proposto apresenta dificuldades para lidar com RBs que possuem probabilidades condicionais extremas, isto é, que tendem a zero ou um. Isto ocorre devido à limitação do próprio processo da simulação estocástica, que requer uma cadeia de Marov irredutível a ser percorrida durante as simulações (YORK, 992). Por fim, alerta-se para as suposições de independência e indêntica distribuição (iid) necessárias para a realização de inferências populacionais pela freqüência relativa. Este problema mostra-se intrínseco, inclusive, ao processo de quantificação inicial da própria rede. Considerando o caso de confiabilidade humana comentado nas seções anteriores, requer-se que a cada observação de supervisão adequada ou inadequada, mesmo em se tratando da mesma pessoa, sejam supostas independência e condições semelhantes às das observações passadas. Para contornar este problema, pode-se identificar variáveis que influenciam a função de supervisionar de forma a tornar os supervisores, ou diferentes atuações de um mesmo supervisor, condicionalmente independentes entre si. Esta abordagem consideraria subpopulações de supervisores que em conjunto permitem inferências sobre a superpopulação, tal como é feito em modelos hierárquicos. Recomenda-se Droguett et al. (2004) para maiores detalhes. 5. Um exemplo Considera-se aqui, a RB X Y apresentada na seção 2. Supondo não haver dados propriamente ditos sobre o problema de confiabilidade humana, eduziu-se as seguintes distribuições: P(X=0)=0,3, P(Y=0 X=0)=0,4 e P(Y=0 X=)=0,5. Através do mesmo processo de edução, inferiu-se sobre os tamanhos amostrais para cada variável modelada na rede, N X =0 e N Y =8. Assim, estima-se que P(X=0), a probabilidade haver uma supervisão adequada, foi obtida de uma amostra com 0 observações enquanto que P(Y=0 X=0) e P(Y=0 X=), as probabilidades de um operador em treinamento errar dado que é ou não supervisionado, baseiam-se em 8 oportunidades avaliadas. A partir do algoritmo proposto na seção anterior, a geração dos indivíduos hipotéticos via bootstrap paramétrico é realizada como a seguir: ENEGEP 2005 ABEPRO 534

Define-se o número de indivíduos a serem gerados e são atribuídos valores iniciais para cada variável não evidenciada. Aqui, adota-se indivíduos hipotéticos e atribui-se X 0 =0, Y 0 =0. Para cada variável não evidenciada, calcula-se suas probabilidades condicionadas às instâncias das demais variáveis e gera-se um número uniforme de 0 a para que o método de geração inversa de números aleatórios (Ross, 2002) possa instanciar tal variável: Iteração P(X Y 0 =0)=αP(X)P(Y 0 =0 X)= α[(0,3)(0,4); (0,7)(0,5)]= (0,26; 0,74). u U[0,] =0,504, como P(X ) abrange u U[0,] X =. P(Y X =)= (0,5; 0,5). u U[0,] =0,600, como P(Y ) abrange u U[0,] Y =. Guarda-se o indivíduo hipotético gerado: (X, Y ) = (, ).... Após a geração de indivíduos hipotéticos, tem-se o banco de dados replicados exibido na Tabela. Indivíduo X Y Indivíduo X Y 7 2 8 0 0 3 0 9 4 0 0 0 5 0 0 6 0 Tabela - Dados hipotéticos gerados sobre a RB exemplificada via bootstrap paramétrico Como no exemplo decidiu-se por um número de iterações pequeno, apenas, despreza-se o º indivíduo gerado como um processo de burn-in e assume-se que os 0 restantes podem representar os indivíduos geradores das opiniões sobre X. Já sobre Y, cujas probabilidades foram estimadas considerando 8 amostras, usa-se os 8 últimos indivíduos gerados. Assim, os dois primeiros indivíduos são passíveis de uma inferência individual sobre a variável Y (Y 2 e Y 3 ). Com essa abordagem, o problema de inferir populacionalmente sobre qualquer variável resume-se a um problema de contagem, tal como em RBs cujo acesso aos dados de referência é possível (através da Equação 2). Para inferir sobre P(X=0), contabiliza-se em quantas oportunidades em que X foi analisado obteve-se X=0. Nesse caso, tem-se P(X=0)=2/0. Vale salientar que a diferença do valor estimado pela freqüência relativa obtida do banco de dados replicados e o valor atribuído como parâmetro da RB (30%) tende a zero à medida que o número de indivíduos considerados cresce. Este comportamento é assegurado pela Lei dos Grandes Números (ver Hogg & Craig, 995). Agora, diante de uma nova evidência, X=, a inferência atualizada sobre X=0 leva a P(X=0)=2/. Além de evidências empíricas, evidências subjetivas também podem ser incorporadas através da técnica proposta. Se, no problema de confiabilidade humana, evidencia-se subjetivamente uma proporção de 2 contra a respeito de o supervisor ter se ausentado ao invés de manter-se supervisionando (Y ser e não 0), considera-se que há 3 evidências empíricas, das quais duas são Y= e uma é Y=0. Ao final, basta aplicar o algoritmo proposto para cada uma das evidências agora empíricas e atualizar as inferências populacionais. 6. Conclusões Neste artigo, propôs-se uma maneira para lidar com a dificuldade em atualizar crenças populacionais quando não se tem acesso aos dados empíricos utilizados para a quantificação ENEGEP 2005 ABEPRO 535

inicial de RBs. A técnica proposta é relativamente simples e teoricamente aceitável, tendo como limitações a dificuldade em lidar com probabilidades extremas e a cautela ao supor independência e idêntica distribuição entre os indivíduos observados. De qualquer forma, pode-se considerar razoável supor que dados gerados pela técnica bootstrap paramétrico a partir das distribuições (ou funções de densidade) de probabilidades condicionais das variáveis de uma RB podem ser utilizados para a realização de inferências populacionais atualizadas. Esse artifício leva a complexidade da atualização de inferências populacionais por RBs a problemas de contagem para inferências freqüentistas. Propostas para trabalhos futuros são contrastar o processo de inferência aqui apresentado com o processo de inferência Bayesiano em um enfoque mais conceitual; avaliar a técnica apresentada diante de inferências individuais, que supostamente tornaria o processo mais eficiente, e, por fim, estudar uma maneira para lidar com modelos que envolvem probabilidades extremas. Bibliografia BERNARDO, J. M. & SMITH, A. F. (995)- Bayesian theory. John Wiley & Sons Ltd. 3ª Edição. Chichester. DEGROOT, M. & SCHERVISH, M. (2002)- Probability and statistics. Addison-Wesley. 3ª Edição. Boston. DROGUETT, E. L.; GROEN, F. & MOSLEH, A. (2004) The combined use of data and expert estimates in population variability analysis. Reliability Engineering and System Safety. Vol. 83, p. 3-32. FIRMINO, P. R. & DROGUETT, E. L. (2004)- Redes Bayesianas para a parametrização da confiabilidade em sistemas complexos. Engenharia de Produção, Universidade Federal de Pernambuco, Centro de Tecnologia e Geociências. FIRMINO, P. R.; MENÊZES, R. C. & DROGUETT, E. L. (2005)- Método aprimorado para a quantificação do conhecimento em análises de confiabilidade por redes Bayesianas. Artigo submetido para este Encontro. GEMAN, S. & GEMAN, D. (984)- Stochastic Relaxation, Gibbs Distributions, and the Bayesian Restoration of Images. IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 6, p. 72-74. GEYER, C. J. (992)- Practical Marov chain Monte Carlo. Statictic Science. Vol. 7, 473-5. GILKS, W. R.; RICHARDSON, S. & SPIEGELHALTER, D. J. (996)- Marov chain Monte Carlo in Practice. Chapman & Hall/CRC. Florida. HOGG, R. V. & CRAIG, A. T. (995)- Introduction to Mathematical Statistics. 5ª Edição. Prentice-Hall. New Jersey. KORB, K. B. & NICHOLSON, A. E. (2003)- Bayesian artificial intelligence. Chapman & Hall/CRC. Florida. MENÊZES, R. C.; FIRMINO, P. R. & DROGUETT, E. L. (2005)- Análise de confiabilidade humana via redes Bayesianas. Artigo submetido para este Encontro. MODARRES, M.; KAMINSKIY, M. & KRIVTSOV, V. (999)- Reliability engineering and ris analyses. Marel Deer. New Yor. MOSLEH, A. & CHANG, Y. H. (2004)- Model-based human reliability analysis: prospects and requirements. Reliability Engineering & System Safety. Vol. 83, p. 24-253. PEARL, J. (988)- Probabilistic Reasoning in Intelligent Systems: Networs of Plausible Inference. Morgan Kaufmann. 2ª Edição. California. ROSS, S. M. (2002)- Simulation. Academic Press. 3ª Edição. California. RUSSEL, S. & NORVIG, P. (2004)- Inteligência artificial. Elsevier. 2ª Edição. Rio de Janeiro. YORK, J. (992)- Use of the Gibbs Sampler in expert systems. Artificial Intelligence. Vol. 56, p. 5-30. ENEGEP 2005 ABEPRO 536