基于非负矩阵分解更新规则的部分可观察马尔可夫决策过程信念状态空间降维算法
关键词:信息处理;;部分可观察马尔可夫决策过程;;信念状态空间;;非负矩阵分解;;值直接压缩;;维数灾
摘 要:针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和动作进行可分解表示,然后利用动态贝叶斯网络的条件独立对其转移函数进行分解压缩,并去除概率为零的取值,降低信念状态空间的稀疏性。第2步,采用信念状态空间值直接降维方法,使降维后求出的近似最优策略与原最优策略保持一致,使用NMF更新规则来更新信念状态空间,避免Krylov迭代,加快降维速度。该算法不仅保证降维前后值函数不发生改变,又保留了其分段线性凸特性。实验结果表明...
内 容:原文可通过湖北省科技信息共享服务平台(http://www.hbstl.org.cn)获取