WHCSRL 技术网

POMDP中的观测量(O)和状态量(S)

例子来源,论文Planning and acting in partially observable stochastic domains
在这里插入图片描述
在这里插入图片描述
大意是,1. 假设每个时刻存在四种状态 ( s 1 , s 2 , s 3 , s 4 ) (s_1,s_2,s_3,s_4) (s1,s2,s3,s4)。其中,状态3是目标状态。2. 同时,每个时刻观测变量 O O O有两种情况,即当前未处于目标状态(但是不知道是1,2,4那种具体状态)和处于目标状态(3)。3. Agent的action有两种情况,即向左(West)和向右(Eest)。agent采取action有0.1的概率会失败,若失败则会向action反方向进行运动(例如当前agent采取向左的action,但是失败了,那么就会向右运动)。如果agent不能往某个方向移动,那么就留在原地(如,位于状态1采取向左移动的action,不会改变当前状态)。
假设agent初始置信状态(belief state) t = 0 t=0 t=0为随机位于非目标状态的任意其他状态,即 [ 1 3 , 1 3 , 0 , 1 3 ] [\dfrac{1}{3},\dfrac{1}{3},0,\dfrac{1}{3}] [31,31,0,31]。agent当前时刻采取了向右的action,且观测到agent未处于目标状态。那么新的belief state为:

  1. 处于状态1的概率:agent 在 t = 0 t=0 t=0时刻处于状态1且采取action失败,或者agent在 t = 0 t=0 t=0时刻处于状态2,且采取action失败: p 1 ( 1 ) = p 0 ( 1 ) ⋅ p A ( 0 ) + p 0 ( 2 ) ⋅ p A ( 0 ) = 1 3 ⋅ 0.1 + 1 3 ⋅ 0.1 = 0.2 3 p_1(1)=p_0(1)\cdot p_A(0)+p_0(2)\cdot p_A(0)=\dfrac13\cdot 0.1+\dfrac13\cdot0.1=\dfrac{0.2}{3} p1(1)=p0(1)pA(0)+p0(2)pA(0)=310.1+310.1=30.2
  2. 同理,处于状态2的概率: p 1 ( 2 ) = p 0 ( 1 ) ⋅ p A ( 1 ) + p 0 ( 3 ) ⋅ p A ( 0 ) = 1 3 ⋅ 0.9 + 0 ⋅ 0.1 = 0.9 3 p_1(2)=p_0(1)\cdot p_A(1)+p_0(3)\cdot p_A(0)=\dfrac13\cdot 0.9+0\cdot 0.1=\dfrac{0.9}{3} p1(2)=p0(1)pA(1)+p0(3)pA(0)=310.9+00.1=30.9
  3. 处于状态3的概率: p 1 ( 3 ) = p 0 ( 2 ) ⋅ p A ( 1 ) + p 0 ( 4 ) ⋅ p A ( 0 ) = 1 3 ⋅ 0.1 + 1 3 ⋅ 0.1 = 1 3 p_1(3)=p_0(2)\cdot p_A(1)+p_0(4)\cdot p_A(0)=\dfrac{1}{3}\cdot 0.1+\dfrac{1}{3}\cdot 0.1=\dfrac{1}{3} p1(3)=p0(2)pA(1)+p0(4)pA(0)=310.1+310.1=31
  4. 处于状态4的概率: p 1 ( 4 ) = p 0 ( 3 ) ⋅ p A ( 1 ) + p 0 ( 4 ) ⋅ p A ( 0 ) = 0.2 3 p_1(4)=p_0(3)\cdot p_A(1)+p_0(4)\cdot p_A(0)=\dfrac{0.2}{3} p1(4)=p0(3)pA(1)+p0(4)pA(0)=30.2
  5. 由于观测到 p 1 ( 3 ) = 0 p_1(3)=0 p1(3)=0,因此状态比值为 2 : 9 : 0 : 9 2:9:0:9 2:9:0:9,即belief state为 [ 0.1 , 0.45 , 0 , 0.45 ] [0.1,0.45,0,0.45] [0.1,0.45,0,0.45]

在这里插入图片描述

在这里插入图片描述
公式中 ∑ s ∈ S T ( s , a , s ′ ) b ( s ) \sum_{s\in\mathcal{S}}T(s,a,s')b(s) sST(s,a,s)b(s)含义是,已知agent t t t时刻处于状态 s s s,采取动作 a a a,agent下一时刻 t + 1 t+1 t+1处于状态 s ′ s' s的概率。
O ( s ′ , a , o ) O(s',a,o) O(s,a,o)表示已知agent t + 1 t+1 t+1 时刻处于状态 s ′ s' s t t t时刻采取动作 a a a t + 1 t+1 t+1时刻观察量为 o o o的概率。在例子中一个状态唯一确定一个观察值。例如,当agent处于状态 1 , 2 , 4 1,2,4 1,2,4时,观察到的一定时未处于目标状态,相反,当agent处于状态 3 3 3时,观察到的就一定属于目标状态。

但是实际中状态不一定唯一确定观察值。例如,一个人感染新冠病毒(状态),他可能表现出症状(观察值),例如发烧,呕吐等,也有可能没有表现出来。与很多其他因素相关。

推荐阅读