Independência Regra de Bayes Redes Bayesianas

Inferência Probabilística Evidência observada: dor. Qual é a probabilidade de cárie dado que foi observado dor? P cárie dor = P(cárie dor) P(dor = 0,6

Independência E se for adicionando uma quarta variável, Tempo? A distribuição conjunta total então se torna P(DorDeDente, Boticão, Cárie, Tempo), que tem 2 2 2 4 = 32 entradas. Assim, contém quatro edições da tabela P(DorDeDente, Boticão, Cárie), uma para cada estado do tempo (ensolarado, chuva, nublado, neve).

Independência Mas, P(dordedente, boticão, cárie, nublado) e P(dordedente, boticão, cárie) estão relacionadas? Pela regra do produto: P(dordedente, boticão, cárie, nublado) = P nublado dordedente, boticão, cárie) P(dordedente, boticão, cárie Mas, variáveis dentárias não têm influência no tempo e, portanto, tem-se: P nublado dordedente, boticão, cárie) = P(nublado) Consequentemente: P(dordedente, boticão, cárie, nublado) = P(nublado) P(dordedente, boticão, cárie

Independência A propriedade P nublado dordedente, boticão, cárie) = P(nublado) é chamada independência (também independência marginal e independência absoluta). A independência entre as proposições a e b pode ser escrita como: P a b P b a P a b = P a ou = P b ou = P a P b

Independência A definição geral de independência condicional de duas variáveis X, Y, dada uma terceira variável Z é: P X, Y Z = P X Z P(Y Z As formas equivalentes P a b = P a ou P b a = P b São: P X Y, Z = P X Z ou P Y X, Z = P Y Z Isso quer dizer que se o objetivo é saber a probabilidade de X, então tanto faz o valor de Y se você já sabe o valor de Z. Exemplo: Trovão é condicionalmente independente de Chuva, dado Relâmpago P(Trovão/ Chuva, Relâmpago) = P(Trovão/ Relâmpago)

Independência A tabela de 32 elementos para quatro variáveis pode ser construída a partir de uma tabela de oito elementos e uma tabela de quatro elementos. 2 3 x 4 =32 2 3 = 8 4 2 3 + 4 < 32

Regra de Bayes A regra do produto: P a b = P a b)p(b) ou P a b = P b a)p(a) Igualando os dois membros obtém-se a Regra de Bayes: P b a = P a b)p(b) P(a)

Regra de Bayes A Regra de Bayes também é conhecida como Lei de Bayes ou Teorema de Bayes. Em IA é a base para inferência probabilística. Interpretação da Regra de Bayes: P causa efeito = P efeito causa)p(causa) P(efeito)

Regra de Bayes P A = P A ω 1 P ω 1 + P A ω n P ω n P( j A) n P( A ) * P( ) i 1 j P( A ) * P( ) i j i P(ω j A) P(A ω j ) P(ω j ) P A É a probabilidade de que a hipótese ω j seja verdadeira, dada a evidência A. Probabilidade de Bayes. É a probabilidade de que será observada a evidência A, dado que a hipótese ω j é verdadeira. É a Probabilidade a priori de que a hipótese j seja verdadeira na ausência de quaisquer outra evidência é a Probabilidade Total raciocínio inverso P ω j A = Probabilidade Total

Regra de Bayes Exemplo: um médico sabe que a meningite faz o paciente ter uma rigidez no pescoço, digamos, durante 70% do tempo. O médico também conhece alguns fatos incondicionais: a probabilidade a priori de um paciente ter meningite é 1/50.000, e a probabilidade a priori de qualquer paciente ter rigidez no pescoço é 1%. Sendo s a proposição de que o paciente tem rigidez no pescoço e m a proposição de que o paciente tem meningite, temos:

Regra de Bayes Como pode-se obter P s m P( m? Sabemos que: P M s) = α[p s m P(m + P s m P( m ] P M s) = α < 0,000014, 0,09986 > P M s) = < 0,0014, 0,9986 >

Regra de Bayes A forma geral da Regra de Bayes com normalização é: P Y X) = αp X Y P(Y A Regra de Bayes, caso mais geral de variáveis multivaloradas: P Y X = P X Y)P(Y) P(X)

Regra de Bayes Em geral, dada uma evidência prévia X e alguma nova observação (evidência prática) e, precisa-se calcular: P Y X, e P X Y, e) = P Y e) P X e) O tamanho do grupo de probabilidades conjuntas necessárias para calcular esta função cresce 2n para n proposições. A distribuição de probabilidade conjunta pode se tornar intratavelmente grande. Independência e independência condicional entre variáveis pode reduzir o número de probabilidades que precisam ser especificadas (distribuição conjunta total). Redes bayesianas podem representar essencialmente qualquer distribuição de probabilidade conjunta completa e, em muitos casos, muito concisamente.

Redes Bayesianas Rede bayesiana (RB) é um grafo acíclico dirigido em que: 1. Cada nó representa a uma V.A., que pode ser discreta ou contínua. 2. Um conjunto de ligações ou arcos dirigidos conectam pares de nós 3. Cada nó recebe arcos dos nós que tem influencia direta sobre ele. 4. Cada nó possui uma tabela de probabilidade condicional associada que quantifica os efeitos que os pais têm sobre ele. A RB é composta por: Estrutura gráfica e Parâmetros numéricos.

Redes Bayesianas Fumar P(S) Causa P(C S) Cancer P(B S) Bronquite P(X C,S) Raio-X Dispnea P(D C,B) Efeito P(S, C, B, X, D) = P(S) P(C S) P(B S) P(X C,S) P(D C,B) Permite uma representação eficiente da distribuição conjunta total

Redes Bayesianas A topologia da rede (o conjunto de nós e vínculos) especifica os relacionamentos de independência condicional válidos no domínio. O significado intuitivo de um arco é que X tem influência direta sobre Y: as causas devem ser pais dos efeitos. Causa Efeitos

Redes Bayesianas Após da topologia da rede bayesiana ser definida, precisa-se especificar uma distribuição de probabilidade condicional para cada variável, dados seus pais. Relacionamentos das variáveis Alarme, Terremoto, Roubo, JoãoLiga, MariaLiga As distribuições condicionais são mostradas como uma tabela de probabilidade condicional (TPC). Cada linha da TPC contém a probabilidade condicional de cada valor do nó para um caso de condicionamento. Um caso de condicionamento é apenas uma combinação possível de valores para os nós pai uma miniatura do mundo possível.

Redes Bayesianas - Semântica Uma entrada genérica na distribuição conjunta é a probabilidade de uma conjunção de atribuições específicas a cada variável tal como P(X 1 = x 1... X n = x n ), usa-se P(x 1, x n ) de forma abreviada. O valor dessa entrada esta dado por: n P( x1,, xn) ( xi / pais( X i )) i 1 Onde pais (X i ) denota os valores em Pais (X i )que aparecem em x 1, x 2, x n. Assim, cada entrada na distribuição conjunta é representada pelo produto dos elementos apropriados das TPC na rede bayesiana.

Redes Bayesianas - Semântica É provado que os parâmetros θ(x i Pais(X i )) são exatamente as probabilidade condicionais P(X i Pais(X i )) deduzidas pela distribuição conjunta. Assim reescreve-se a equação como: P( x1,, xn) P( xi / pais( X i )) Isto é, as tabelas que chamamos de tabelas de probabilidade condicional realmente são tabelas de probabilidade condicional. E é essa equação que define o que significa uma rede bayesiana. n i 1

Redes Bayesianas Exemplo Alarme

Redes Bayesianas Exemplo Alarme Cálculo da probabilidade conjunta: P( x1,, xn) P( xi / pais( X i )) i 1 Calcular a probabilidade do evento que o alarme toca mas não houve assalto nem terremoto e que João e Maria telefonaram: P(J M A ~R ~T) = P(J A) P(M A) P(A ~R ~T )P(~R)P(~T) = 0.9 x 0.7 x 0.001 x 0.999 x 0.998 = 0.00062 ou 0.062 % n

A equação Redes Bayesianas- Construção n P( x1,, xn) P( xi / pais( X i )) i 1 Implica certos relacionamentos de independência condicional, que podem ser usados na construção da topologia da rede: 1. Escreve-se as entradas na distribuição conjunta em termos de probabilidade condicional usando a regra do produto:

Redes Bayesianas- Construção 2. A seguir, repete-se o processo reduzindo cada probabilidade conjuntiva a uma probabilidade condicional e uma conjunção menor: P(x 1,, x n ) = P x n x n 1, x 1 P x n 1 x n 2, x 1 P x 2 x 1 P(x 1 ) n 1,, xn) P( x1 / xi 1,... x1) i 1 P( x Essa identidade é chamada de regra da cadeia. É válida para qualquer conjunto de variáveis aleatórias.

Redes Bayesianas- Construção Comparando: Com: n 1,, xn) P( x1 / xi 1,... x1) i 1 P( x n P( x1,, xn) P( xi / pais( X i )) i 1 Vê-se que, a especificação da distribuição conjunta é equivalente à afirmação geral de que, para toda variável X i na rede, tem-se: P(X i X i 1, X 1 ) = P(X i Pais(X i )) desde que Pais(X i ) {X i 1,, X 1 } Esta última condição é satisfeita enumerando os nós em qualquer ordem consistente com a ordem parcial implícita na estrutura do grafo.

Redes Bayesianas- Construção Para satisfazer a condição deve-se: 1. Nós: Primeiro determine o conjunto de variáveis que são necessárias para modelar o domínio. Agora as ordene, {X1,, Xn}. Qualquer ordem vai funcionar, mas a rede resultante será mais compacta se as variáveis forem ordenadas de tal forma que as causas precedam os efeitos. 2. Vínculos: Para i = 1 até n faça: Escolha, de X1,, Xi-1, um conjunto mínimo de pais para Xi, tal que a Equação 1 seja satisfeita. Para cada pai insira um vínculo do pai para Xi. TPCs: escreva a tabela de probabilidade condicional, P(Xi Pais (Xi)).

Vejamos: Redes Bayesianas- Construção Intuitivamente, os pais do nó Xi devem conter todos os nós em X1,, Xi 1 que influenciam diretamente Xi. No caso do Alarme, vamos supor que completamos a rede, exceto pela escolha de pais para MariaLiga. MariaLiga certamente é influenciada pelo fato de haver ou não um Roubo ou um Terremoto, mas não é diretamente influenciada.

Redes Bayesianas- Construção Intuitivamente, nosso conhecimento do domínio nos diz que esses eventos influenciam a disposição de Maria para telefonar somente por seu efeito sobre o alarme. Além disso, dado o estado do alarme, o fato de João ligar não tem influência sobre a ligação de Maria. Em termos formais, acreditamos que a declaração de independência condicional a seguir seja válida: P(MariaLiga JoãoLiga, Alarme, Terremoto, Roubo) = P(MariaLiga Alarme). Assim, Alarme será o único nó pai para MariaLiga.

Redes Bayesianas- Construção Como cada nó só é ligado aos nós anteriores, esse método de construção garante que a rede é acíclica. Outra propriedade importante da rede bayesiana é que ela não contém valores de probabilidade redundante. Se não houver redundância, não há chance para inconsistência: é impossível para o engenheiro de conhecimento ou especialista de domínio criar uma rede bayesiana que viole os axiomas da probabilidade.