tomada de decis es simples cap 16 russel n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
TOMADA DE DECISÕES SIMPLES cap 16 - Russel PowerPoint Presentation
Download Presentation
TOMADA DE DECISÕES SIMPLES cap 16 - Russel

Loading in 2 Seconds...

play fullscreen
1 / 66

TOMADA DE DECISÕES SIMPLES cap 16 - Russel - PowerPoint PPT Presentation


  • 120 Views
  • Uploaded on

TOMADA DE DECISÕES SIMPLES cap 16 - Russel. Centro Universitario da FEI. AGENTES BASEADOS EM OBJETIVOS E BASEADOS EM UTILIDADE fonte IA Russell . Agentes baseados em objetivos

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'TOMADA DE DECISÕES SIMPLES cap 16 - Russel' - chevelier


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
agentes baseados em objetivos e baseados em utilidade fonte ia russell
AGENTES BASEADOS EM OBJETIVOS E BASEADOS EM UTILIDADE fonte IA Russell

Agentes baseados em objetivos

Distinção binária entre estados bons (objetivos) e estados ruins ( não-objetivos) estados felizes e infelizes.

Agentes baseados em utilidade

Tem uma medida continua da qualidade

dos estados uma medida de desempenho mais geral deve permitir uma comparação entre os diferentes estados do mundo de acordo com o grau exato de felicidade que proporcionariam ao agente se fossem adotadas.

diferentemente de um agente l gico ele pode
diferentemente de um agente lógico ele pode...
  • Pode tomar decisões em ambientes com incertezas e objetivos conflitantes (especifica o compromisso adequado)
  • Possui uma escala contínua de medida de qualidade sobre os estados
  • Valores associados a cada estado (utilidade ou desirability) indicando a “felicidade” do agente.
  • No caso de vários objetivos desejados não puderem ser atingidos com certeza, a utilidade fornece um meio pelo qual a probabilidade de sucesso pode ser ponderada em relação a importância dos objetivos.
slide5

No texto Port-Royal Logic, escrito em 1662, o filósofo francês Arnauld declarou:

Para julgar o que se deve fazer para obter um bem ou evitar um mal, é necessário considerar não apenas o bem e o mal em si, mas também a probabilidade de ele acontecer ou não acontecer, e ainda visualizar geometricamente a proporção que todos esses itens têm em conjunto.

fun es de utilidade

associam um valor a um estado

Tal valor Indica o “desejo” por estar nesse estado

U(S) – utilidade do estado S de

acordo com o agente

Ex.: s1 = {rico, famoso}, s2 = {pobre, famoso}

U(s1) = 10

U(s2) = 5

Funções de utilidade
slide7

Uma ação não determinística A terá estados resultantes possíveis Resultadoi(A)ondeivaria sobre os diferentes resultados.Para cada saída possível está associada uma probabilidade

slide8

Antes da execução de A o agente atribui a probabilidade P(Resultadoi(A) | Fazer (A), E)a cada resultado onde,Eresume a evidência disponível ao agente sobre o mundoFazer (A)é a proposição de que a ação A seja executada no estado atual Pode-se calcular a utilidade esperada da ação EU(A|E) dada a evidencia E usando-se:EU(A |E) = iP(Resultadoi(A) | Fazer(A),E) * U(Resultadoi(A))probabilidade utilidade

princ pio da utilidade m xima esperada ume
Princípio da Utilidade Máxima Esperada (UME)

Afirma que um agente racional deve escolher uma ação que maximize a utilidade esperada do agente;

Relaciona-se com a idéia de medida de desempenho;

É um modo razoável de tomar decisões.

ou seja:

O agente usa um modelo do mundo em conjunto com a função utilidade (que mede suas preferências entre os estados do mundo), em seguida escolhe a ação que leva à melhor utilidade esperada.

princ pio da utilidade m xima esperada ume1
Princípio da Utilidade Máxima Esperada (UME)

action = argmaxa EU(a|e)

  • Basicamente: o agente deve fazer “o que é certo”
  • Computar P(Result(a)|a,e) requer um modelo causal completo do mundo e inferências sobre Redes Bayesianas muito grandes
  • Calcular U(s) requer planejamento e/ou busca, para descobrir o quão “bom” é um estado (i.e. para onde se pode ir a partir dele)

10

o principio simples mas o que est por tr s n o
O principio é simples mas o que está por trás não :
  • Computações podem ser proibitivas e até ser difícil de formular o problema completo
  • Deve-se conhecer o estado inicial do ambiente

percepção, aprendizado, representação do conhecimento e inferência são necessários.

  • Definição de um modelo causal completo do ambiente e atualização das redes de crença para calcular

P(Resultadoi(A) | Fazer(A))

pesquisa e planejamento são necessários

  • Buscar valor da utilidade associada a cada estado para determinar U(Resultadoi(A))
ume versus medidas de desempenho
UME versus Medidas de desempenho

lembrando que:

  • AGENTE é tudo que pode ser considerado capaz de perceber seu ambiente por meio de sensores e de agir sobre esse ambiente por intermedio de atuadores.
  • AGENTES RACIONAIS

“Para cada sequência de percepções possível, um agente racional deve selecionar uma ação que venha a maximizar sua medida de desempenho, dada a evidência fornecida pela sequência de percepções e por qualquer conhecimento interno do agente.”

ume versus medidas de desempenho1
UME versus Medidas de desempenho

Considerando:

os ambientes que poderiam levar um agente a ter um dado histórico de percepções e os diferentes agentes que podem ser projetados.

“Se um agente maximizar uma função de utilidade que reflita corretamente a medida de desempenho pela qual seu comportamento está sendo julgado, ele alcançará a mais alta pontuação de desempenho possível, se tomarmos a média sobre os ambientes em que o agente poderia ser colocado.”

Porém, em tomada de decisões simples, preocupa-se apenas com decisões isoladas ou instantâneas e não medidas de desempenho sobre históricos de ambientes.

base da teoria da utilidade
Base da teoria da utilidade
  • Por que maximizar a utilidade média é tão especial?
  • Por que não tentar maximizar a soma dos cubos das utilidades possíveis ou,
  • Tentar minimizar a pior perda possível?
  • Um agente não poderia agir racionalmente apenas expressando preferências entre estados, sem lhes atribuir valores numéricos
  • Talvez um agente racional possa ter uma estrutura de preferências complexa demais para ser captada por um único numero real, dado pela função de utilidade.
restri es requeridas sobre as prefer ncias de um agente racional
Restrições requeridas sobre as preferências de um agente racional
  • Assumimos o conjunto de saídas de cada ação como uma loteria
  • Loteriaé em essência, uma distribuição de probabilidades sobre um conjunto de resultados reais (os prêmios da loteria).

Uma loteria L com resultados possiveis C1,.......,Cnque pode ocorrer com as probabilidades p1,......,pné escrita como: L = [p1, C1;....pn, Cn]

  • Cada resultado de uma loteria pode ser um estado ou outra loteria.
prefer ncias
Preferências
  • As preferências entre os prêmios pagos são utilizadas para determinar preferências entre loterias ou estados, ou seja:
    • AB : A é preferível a B
    • AB : o agente está indiferente entre A e B
    • AB : O agente prefere A a B ou está indiferente

onde A e B são estados.

slide18

Para a compreensão de como as preferências entre loterias complexas estão relacionadas a preferências entre os estados subjacentes nessas loterias impõe-se restrições razoáveis sobre a relação de preferência a fim de obter os axiomas da teoria da utilidade.

axiomas da teoria da utilidade
Axiomas da teoria da utilidade
  • ordenabilidade

Dados dois estados quaisquer, um agente racional deve preferir um ao outro ou então classificar os dois como igualmente preferíveis. Ou seja, o agente não pode evitar a decisão. Recusar-se a apostar é como recusar-se a permitir a passagem do tempo.

  • transitividade

Dados três estados quaisquer, se um agente preferir A a B e preferir B a C, então o agente deverá preferir A a C.

slide20

continuidade

se algum estado B estiver entre A e C em preferência, então haverá alguma probabilidade p de que o agente racional fique indiferente entre escolher B por garantia ou escolher a loteria que produza A com probabilidade p e C com probabilidade 1-p.

A BC   p [ p, A; 1 – p, C] ~ B

      • substitutibilidade

se um agente está indiferente entre duas loterias A e B, então o agente está indiferente entre duas outras loterias complexas que são a mesma loteria, exceto pelo fato de A ser substituido por B em uma delas. Isso é válido independentemente das probabilidades e do(s) outro(s) resultado(s) das loterias.

A B   p [ p, A; 1 – p, C] ~ [ p, B; 1 – p, C]

slide21

monotonicidade

suponha que existam duas loterias que tenham os mesmos dois resultados, A e B. Se um agente prefere A a B, então o agente deve preferir a loteria que tem uma probabilidade mais alta para A (e vice-versa)

A B  (p > q↔ [p, A; 1 – p, B] [q, A; 1 – q, B] )

      • decomponibilidade

As loterias compostas podem ser reduzidas a loterias mais simples com o uso das leis da probabilidade. Isto se chama regra de “nada de diversão no jogo” (no fun in gambling), porque afirma que duas loterias consecutivas podem ser compactadas em uma única loteria equivalente.

[p, A; 1 – p, [q, B; 1 – q, C] ] ~ [p, A; (1 – p)q, B; (1 – p), (1 – q), C]

(imagine um cassino que calcula a probabilidade de vc ganhar ou perder durante a noite e a coloque em um dado)

slide22
Estes são os axiomas da teoria da utilidade
  • A violação de quaisquer desses axiomas acarreta em uma tomada de ações irracional!
violar restri es leva a irracionalidade
Violar restrições leva a irracionalidade

Exemplo: se um agente viola a restrição de transitividade, seria possível induzí-lo a gastar todo o seu dinheiro. Suponha A B C A

  • Se o agente possui A, entao podemos oferecer a ele C, por A +1c. O agente prefere C então ele faria a transação. Podemos então oferecer B por C+1c, e depois A por B+1c, recaindo no estado inicial.
  • Isso pode ser feito até que o agente gaste todo o seu dinheiro.
slide24
Os axiomas da teoria da utilizade versam sobre preferências....
  • ... porem são consequências desses axiomas os seguintes teoremas:
    • existência da função de utilidade;
    • utilidade esperada de uma loteria.
slide25

Existência da função utilidade:

    • Se as preferências de um agente obedecem aos axiomas de utilidade então existe uma função de valores reais U que opera sobre estados tais que U(A) > U(B) se e somente se A é preferivel em relação a B, e U(A) = U(B) se e somente se o agente está indiferente entre A e B.
  • Utilidade esperada de uma loteria:é a soma das probabilidades de cada possibilidade vezes a sua utilizade
slide26

Utilidade é uma função que mapeia loterias à números reais

Um agente pode ter quaisquer preferências que desejar:

preferir um corcel surrado 73 ao invés de um Mercedes novo

preferir saldos de conta bancaria apenas em números primos, abrindo mão do excedente

Porém, em geral as preferências de agentes reais são mais sistemáticas

escalas de utilidade e avali a o de utilizade
escalas de utilidade e avaliação de utilizade
  • objetivo: criar sistemas de decisão que ajudem um agente a tomar decisões racionais.
  • Para tal precisamos definir a função de utilidade do agente
  • “dedução da preferência” (preference elicidation): apresentar escolhas para o agente e, usando as escolhas observadas, definir a sua função de utilidade.
escalas de utilidade
Escalas de utilidade
  • Uma escala pode ser definida a partir de dois pontos. Para a função de utilidade:
    • “melhos prêmio possível” : U(S) = uT
    • “pior catastrofe possível”: U(S) = u
  • Utilidade normalizada: u = 0 e uT = 1.
escalas de utilidade1
Escalas de utilidade
  • Dada uma escala de utilidade entre u e uT, as utilidades dos estados intermediários são avaliadas pedindo-se que o agente indique uma preferência entre S e uma loteria padrão [p, uT; (1-p) u].
  • A probabilidade p é ajustada até o agente ficar indiferente entre S e a loteria padrão.
  • Uma vez que isso seja feito para cada prêmio, temos a utilidade de todas as loterias envolvendo estes prêmios (para um agente específico).
escalas de utilidade2
Escalas de utilidade
  • Ex.:em problemas de decisão na área médica, de transporte e ambiental a utilidade é avaliada com relação à probabilidade associada ao valor de utilidade de morte imediata (u)
    • aviões recebem uma revisão completa a partir de intervalos entre viagens e tempo de vôo (o valor desse intervalo esta relacionado a u);
    • carros são produzidos assumindo um compromisso do custo sobre taxa de sobrevida em acidentes.
escalas de utilidade3
Escalas de utilidade
  • Escalas possíveis:
    • 1 micromorte: uma chance de morte em um milhão
    • Qualy: quality-ajusted life year
    • Grana, bufunfa, dinheiro
utilidade do dinheiro
Utilidade do dinheiro
  • agentes preferem mais dinheiro do que menos (mantidas todas as condições iguais)
    • agentes racionais possuem uma preferência monotônica para mais dinheiro
    • porém não é uma função de utilidade pois não diz nada sobre preferências a respeito de loterias envolvendo dinheiro.
utilidade do dinheiro exemplo
Utilidade do dinheiro - exemplo
  • Um jogador ganhou um prêmio de R$ 1.000.000 em um programa de TV
  • Apresentador oferece uma proposta:
    • Se ele jogar a moeda e aparecer cara  jogador perde tudo;
    • Se aparecer coroa  jogador ganha R$ 3.000.000;
  • Supondo que a moeda é justa o Valor Monetário Esperado (VME) de aceitarproposta é:

VME = 0.5 (R$ 0) + 0.5 (R$ 3.000.000) = R$ 1.500.000

  • O Valor Monetário Esperado de recusar a proposta é de R$ 1.000.000(menor)

Isso indica que seria melhor aceitar a aposta ?

utilidade do dinheiro exemplo cont
Utilidade do dinheiro – exemplo (cont.)
  • AUtilidade Esperada (EU)para cada uma das duas ações, Sk = riqueza atual do jogador é:
    • EU (Aceitar) = 0.5 U(Sk) + 0.5 U(Sk+3.000.000)
    • EU (Rejeitar) = U(Sk+1.000.000)
  • Deve-se atribuir valores de utilidade para cada estado de saída:
    • Sk = 5
    • Sk+3.000.000 = 9
    • Sk+1.000.000 = 8

Utilidade esperada: EU(aceitar) = 0.5x5 + 0.5x8 = 7.5 < 8

Ação racional: rejeitar !

  • Calculando aUtilidade Esperada (EU)para cada uma das duas ações temos que a decisão depende do estado de riqueza atual do jogador, uma vez que a utilidade (mudança no estilo de vida) para o primeiro R$ 1.000.000 é muito alta.

Portanto a utilidade não é diretamente proporcional ao valor monetário (pois a utilidade do seu primeiro milhão é maior do que a do seu segundo milhão).

slide35

Utilidade do Dinheiro

  • Não é uma função linear: conforme aumenta a quantidade de dinheiro, a taxa de crescimento da utilidade diminui.
    • ou seja, as pessoas ficam mais avessas a risco conforme aumentam os valores
  • Do lado da dívida a tendência é ser favorável ao risco.

35

utilidade do dinheiro1
Utilidade do dinheiro
  • Grayson (1960) deduziu que a utilidade do dinheiro é proporcional ao logaritmo da quantia
a utilidade do dinheiro proporcional ao logaritmo da quantia entre 150 000 e 800 000 mr beard
A utilidade do dinheiro é proporcional ao logaritmo da quantia entre -$150.000 e 800.000 (Mr. Beard)

U(L) < U(Seml(L))

Risk-averse

U(L) > U(Seml(L))

Risk-seeking

Alguém que já deve 10.000 pode muito bem aceitar um lançamento de moeda justo para um ganho de $10.000 (caras) e uma perda de $20000 para coroas.

Tal comportamento poderia ser chamado de desesperado, mas é racional se alguém já está em uma situação desesperada.

utilidade esperada e desapontamento p s decis o
Utilidade esperada e desapontamento pós decisão
  • a forma racional de escolher uma ação a*é:

a* = argmaxa EU(a|e)

  • se EU for calculado corretamente, de acordo com o modelo probabilístico, se as probabilidades realmente corresponderem os processos estocasticos subjacentes aos eventos, então em média obteremos o resultado esperado....
optimizer s curse
Optimizer’s curse
  • Porem o que realmente temos é uma estimativa (~EU(a|e)) da utilidade esperada.
  • Em geral o valor esperado real é pior do que o estimado
    • Eg. considere um problema de decisão com k escolhas, cada uma das quais tem utilidade estimada = 0
    • Suponhamos que o erro de cada estimativa tenha média 0 e desvio padrao de 1
slide40
Como selecionamos a ação com a maior estimativa de utilidade, estamos favorecendo estimativas ultra-otimistas, causando um comportamento tendencioso
slide41
A curva para k = 3 possui média em torno de 0.85, portanto o desapontamento médio será de 85% do desvio padrão na estimativa de utilidade
  • (exercício 16.11)
fun es de utilidade multi atributo
Funções de utilidade multi-atributo
  • Existem problemas em que resultados são caracterizados por dois ou mais atributos.
  • Como tratar funções de utilidades com várias variáveis X1, ..., Xn ?

Ex.: Construir aeroporto - U(Morte, ruído, Custo)

  • Existem basicamente dois casos:
    • Decisões podem ser tomadas sem combinar os valores dos atributos em um único valor da utilidade (Dominância);
    • A utilidade resultante da combinação dos valores dos atributos pode ser especificada concisamente (Estrutura de Preferência e Utilidade multi-atributo);
domin ncia
Dominância
  • Se um estado S1possui valores melhores em todos seus atributos do que S2, então existe uma dominância total de S1sobre S2;
  • Exemplo:

Local S1 para Aeroporto custa menos, gera menos poluição sonora e é mais seguro que S2 (S1 domina totalmente S2 );

  • Dominância total raramente acontece na prática;
slide44

P

S1

S2

$

- 2,8

-5.2

  • Exemplo:

Custo de construir aeroporto , vamos supor :

    • Em S1 valor uniformemente distribuído entre $2,8 e $4,8 bilhões;
    • Em S2valor uniformemente distribuído entre $3 e $5,2 bilhões;
  • Dada a informação que utilidade decresce com custo:
    • S1domina estocasticamente S2  Isso não decorre da comparação entre custos esperados (e.g. se soubermos que S1 custa exatamente $3.8 bilhões, não saberiamos resolver sem info adicionais!)
slide45

Na prática, dominância estocástica pode geralmente ser definida usando apenas raciocínio qualitativo;

  • Existem algoritmos envolvendo “redes probabilísticas qualitativas” permitindo sistemas de tomada de decisão baseado em dominância estocástica sem usar valor;
  • Ex.: custo de construção aumenta com a distância para a cidade:
    • S1 é mais próximo da cidade do que S2 S1 domina S2estocasticamente sobre o custo
estrutura de prefer ncias e utilidade multi atributo
Estrutura de preferências e utilidade multi-atributo
  • Vamos supor que temos n atributos, cada um dos quais com d valores possíveis.
    • para especificar uma função de utilidade completa U(x1, ..., xn) precisamos de dn valores
  • Preferências de agentes típicos possuem estruturas/regularidades que reduzem a complexidade desta definição:
    • U(x1, ..., xn) = f[ f1(x1), ..., fn(xn)]
prefer ncias sem incerteza
Preferências sem incerteza
  • A regularidade básica que surge em estruturas de preferências determinísticas é chamada Independência de Preferências;
  • X1 e X2 são preferencialmente independentes de X3:
    • Se a preferência entre resultados {x1, x2, x3} e {x1’, x2’, x3}não depende do valor específico x3 para o atributo X3
    • Ex.: {ruído, custo, morte}

a) 20.000 sofrem; $4,0 bilhões; 0,06 mortes/milhão de milhas

versus

b) 70.000 sofrem, $3,7 bilhões; 0,06 mortes/milhão de milhas

prefiro a) a b) independente do fator risco de morte

slide48

Independência preferencial mútua (MPI): todos os pares de atributos são preferencialmente independentes com relação aos demais;

    • Ex.: {custo e morte} são preferencialmente independentes de ruído

{ruído e morte} são preferencialmente independentes de custo

  • (Debreu, 1960) Com MPI, o comportamento preferencial do agente pode ser descrito como uma maximização da função:

V (x1 ... xn) = i Vi(xi)

Em que Vi é uma função definida somente sobre o atributo xi

    • Ex.:V(barulho,custo,morte ) = - barulho x 10⁴ - custo - morte x 10¹² (função valor aditiva)
slide49

Para entender MPI, melhor olhar para casos em que ela falha:

    • Suponha que vc seja um caçador medieval e precisa comprar no mercado cães de caça, galinhas vivas e gaiolas para as galinhas. Os cães são muito valiosos, mas se voce não tiver gaiolas suficientes para as galinhas, os cães as comerão; assim o número de cães vs galinhas vai depender do número de gaiolas
    • Neste caso a MPI é violada
    • A existência deste tipo de interação entre os atributos torna difícil a criação de uma função de utilidade multi-atributo.
prefer ncias com incerteza
Preferências com incerteza
  • Deve-se levar em consideração estruturas a respeito de preferências sobre loterias;
  • A noção básica de independência de utilidade estende a noção de independência de preferências sobre loterias:
    • Conjunto de atributo X é independente de utilidadecom relação ao conjunto de atributo Y : Se a preferência sobre loterias em X não depende dos valores dos atributos em Y
  • Independência de utilidade mútua (MUI)

Um conjuto de atributos é mutuamente independente da utilidade se cada um dos seus subconjuntos de atributos é independente de utilidade dos atributos restantes;

  • (Keeney, 1974 ) Existe MUI então, comportamento do agente pode ser descrito usando a função de utilidade multiplicativa:

U = k1U1 + k2U2 + k3U3 + k1 k2U1U2 + k2 k3U2U3 + k3 k1U3U1 + k1k2k3U1U2U3

prefer ncias com incerteza cont
Preferências com incerteza (cont.)
  • Em geral, um problema de “n” atributos que exibe MUI pode ser modelado com a utilização de “n” utilidades de um únicoatributo e “n” constantes
  • Cada uma das funções utilidades de único atributo pode ser desenvolvida independente e a combinaçãooferecerá a garantia de gerar preferências globais corretas.
slide52
As ações são selecionadas pela avaliação da redeRedes de decisãoFormalismo para expressar e resolver problemas de decisão: estende Redes Bayesianas adicionando ações e utilidades
  • Mecanismo geral para tomada de decisões racionais
  • Representam: Estado atual do agente, suas ações possíveis, estado resultante, e a utilidade desse estado;
  • Estende Redes Bayesianas com ações e utilidades;
    • Nós de acaso (ovais): representam variáveis aleatórias;
    • Nós de Decisão (retângulo): pontos onde agente deve escolher uma ação;
    • Nós de Utilidade (diamantes): representam as funções de utilidade do agente;
slide53

Área B

Área A

Morte

(3)

Morte

(3)

Barulho

(4000)

Barulho

(2)

U

U

F(u)=Y

F(u)=X

Custo da

Construção

(200)

Custo da

Construção

(150)

LOCALDO AEROPORTO? pag 579

1. Atribuir os valores das variáveis

para o estado corrente;

2. Para cada valor possível do nó de decisão:

  • Ajuste o valor do nó de decisão para este valor;
  • Calcule o valor da probabilidade condicional para os nós pais do nó de utilidade, usando algum algoritmo de inferência probabilística;
  • Calcular o valor final de utilidade para a ação em questão;

3. Retornar a ação com maior

Utilidade Máxima Esperada

o valor da informa o
O valor da informação
  • Até agora, as informações relevantes foram fornecidas ao agente antes da tomada de decisão o que dificilmente acontece na prática;
    • E.g. Um médico não pode supor possuir todos os diagnósticos, testes e respostas no instante em que o paciente entra no consultorio pela 1ª vez
  • A Teoria do Valor da Informação permite que o agente escolha quais informações adquirir;
o valor da informa o1
O valor da informação
  • Assumimos então que, antes de selecionar uma ação real representada por um nó de decisão, o agente possa adquirir o valor de quaisquer variáveis aleatórias do modelo
    • portanto, a teoria do valor da informação envolve uma versão simplificada de tomada de decisão
    • i.e., as ações afetam somente os estados de crença do agente, não os estados do domínio
  • Valor de qualquer observação deve ser derivada do potencial desta observação afetar alguma ação física do agente
  • Este potencial pode ser estimado diretamente do modelo de decisão.
o valor da informa o2
O valor da informação
  • Exemplo: comprar os direitos de exploração de reservas de petróleo (blocos):
    • n blocos para perfuração, apenas um possui óleo com valor $C, enquanto os outros não valem nada;
    • Probabilidade de comprar o bloco certo = 1/n (sem informação)
    • O preço de cada bloco é $C/n;
    • Consultor oferece uma pesquisa para detectar se o bloco 3 possui petróleo ou não. Qual o valor dessa informação?

56

o valor da informa o3
O valor da informação

Solução:

  • Calcular o valor esperado da informação = valor esperado da melhor ação dada a informação – valor esperado da melhor ação sem a informação;
  • Com probabilidade 1/n o consultor dirá que tem óleo em 3. Nesse caso a empresa comprará o bloco 3 por C/n e terá um ganho de C - C/n = (n-1)C/n = G1
  • com probabilidade (n-1)/n o consultor dirá que o bloco não contém óleo, nesse caso a empresa comprará um outro bloco. Ela encontrará óleo nesse bloco com probabilidade 1/(n-1). Portanto o ganho esperado é de:

C/(n-1) - C/n = C/n(n-1) = G2

  • Ganho esperado será então: G1+G2 = C/n

A informação custa tanto quanto o bloco!

57

slide58
Em geral, o valor de uma dada peça de informação é definido como a diferença entre o valor esperado da melhor ação antes de depois desta informação ter sido obtida.
f rmula para informa o perfeita
fórmula para informação perfeita
  • Assumimos que o valor exato da evidência pode ser obtido para alguma variávei aleatória (Ej). Queremos obter o valor da informação perfeita (VPI).
  • Evidência inicial e. Então o valor da melhor ação a no momento é:

EU(a|e) = maxas’ P(Result(a) = s’|a,e)U(s’)

f rmula para informa o perfeita1
fórmula para informação perfeita
  • e o valor da melhor ação (após a obtenção da evidência Ej = ej):

EU(aej|e, ej) = maxas’ P(Result(a) = s’|a,e,ej)U(s’)

f rmula para informa o perfeita2
fórmula para informação perfeita
  • Porém o valor de Ej ainda não é sabido, portanto para determinar o valor de Ej, dada a informação atual e, deve-se levar em consideração todos os valores ejk sobre Ej:

VPI(Ej) = (kP(Ej= ejk|e)EU(ajk|e, Ej = ejk)) - EU(a|e)

valor da informa o exemplo 2
Valor da informação – exemplo 2
  • A1 e A2 duas rotas distintas através de uma montanha;
    • A1 e A2 são as únicas ações possíveis, com EU = U1 e U2;
    • A1 = caminho mais baixo, sem muito vento;
    • A2 = caminho mais alto, com muito vento;
    • U (A1) > U (A2) !!!
  • Nova evidência NE produzirá novas utilidades esperadas U1’ e U2’;
    • Vale a pena adquirir NE?
  • E se mudássemos o cenário?
    • II) A1 e A2 são duas estradas onde venta muito, de mesmo tamanho e levamos um ferido grave;
    • III) Mesmas estradas A1 e A2 mas agora no verão;
slide63

“A informação tem valor até o ponto em que apresenta alguma probabilidade de causar uma mudança de planos e até o ponto em que o novo plano é significativamente melhor que o velho.”IA Russel pag 583

sistemas especialistas de teoria da decis o
Sistemas especialistas de teoria da decisão
  • No campo da Análise de Decisões temos a aplicação da Teoria da Decisão a problemas reais (principalmente envolvendo altos riscos);
  • No início os Sistemas Especialistas concentravam-se em responder perguntas e não em tomadas de decisão;
  • Hoje temos que os Sistemas Especialistas envolvem um Processo de Engenharia do Conhecimentocom etapas definidas e que fornecem as seguintes capacidades:
    • tomar decisões;
    • usar valor da informação para decidir se deve adquirir algo;
    • calcular a sensibilidade de suas decisões.
slide65

Descrição do processo de engenharia do conhecimento para sistemas especialistas de teoria da decisãoCerca de 0,8% das crianças nascem com uma anomalia no coração chamada estreitamento da aorta. Pode ser tratata por cirurgia, angioplastia ou medicação. O problema é decidir qual tratamento e quando fazê-lo.