动态环境中的分层强化学习

沈晶 程晓北 刘海波 顾国昌 张国印

哈尔滨工程大学计算机科学与技术学院,黑龙江哈尔滨150001

摘  要:

现有的强化学习方法都不能很好地处理动态环境中的学习问题,当环境变化时需要重新学习最优策略,若环境变化的时间间隔小于策略收敛时间,学习算法则不能收敛.本文在Option分层强化学习方法的基础上提出一种适应动态环境的分层强化学习方法,该方法利用学习的分层特性,仅关注分层任务子目标状态及当前Option内部环境状态的变化,将策略更新过程限制在规模较小的局部空间或维数较低的高层空间上,从而加快学习速度.以二维动态栅格空间内两点间最短路径规划为背景进行了仿真实验,实验结果表明,该方法策略学习速度明显高于以往的方法,且学习算法收敛性对环境变化频率的依赖性有所降低. (共4页)

相关文章:

主题相关 参考文献(11篇) 耦合文献(20篇) 

参考文献

更多文章搜索 
中国业务群个人门户,免费下载!
相关学者+更多
征稿启事
相关文章+更多
社区热帖+更多
天元数据 维普资讯 版权所有 Copyright © 2001-2008 cqvip.com Inc. All rights reserved.
渝ICP证 B2-20050021  违法和不良信息举报中心
建议使用:1024x768分辨率,16位以上颜色