无惧雨雪风霜斯坦福找到一种更适应动态环境的强化学习方法

斯坦福人工智能实验室(SAIL)的研究人员最近设计了一种方法,能处理那些会随时间变化的数据和环境,性能优于一些领先的强化学习方法,它被命名为LILAC(Lifelong Latent Actor-Critic)。

这一方法使用了潜在变量模型和最大熵策略,以此利用过去的经验,在动态环境中获得更好的采样效率和性能。

在最近的其他强化学习新闻中,来自Google Brain、卡内基梅隆大学、匹兹堡大学和加州大学伯克利分校的AI研究人员最近又引入了一种新的域适应方法,即在强化学习环境中改变代理的奖励函数。与其他强化学习环境一样,该方法试图使模拟器中的源域更像真实世界中的目标域。

格奥尔基耶娃还表示,全球经济有必要进行根本性改革,使其更具韧性、更加环保、智能、包容且更有活力。各经济体应引导大规模投资方向,提高对以绿色环保项目为代表的公共事业的支持,创造更多就业岗位。同时,加速数字转型以提高生产率,创造薪资水平更高的就业岗位。

格奥尔基耶娃表示,由于各国应对危机能力不同,发达经济体能够不惜代价,贫穷国家只能尽力而为,因此全球经济将面临不均衡的发展前景,复苏将是“漫长、坎坷且充满不确定性的”,其中新兴经济体及低收入和脆弱国家形势更为严峻。

格奥尔基耶娃指出,抗击疫情并推动变革是全球经济的发展方向。首先,要控制住疫情,保障公众生命健康。其次,避免过早取消现有政策支持,包括延期缴税、信用担保、现金转移和工资补贴等。第三,采取灵活且具有前瞻性的财政政策对实现稳固复苏至关重要。

“与这些方法不同,尽管在每一集中都会经历环境的持续变化,但LILAC却能推断出未来环境的变化,并在训练过程中稳步保持高回报。”

作者说,LILAC与终身学习和在线学习算法有相似之处。元学习和元强化学习算法也试图快速适应新的设置。

研究人员发现,与伯克利AI研究院(BAIR)于2018年推出的SAC(Soft Actor Critical)和加州大学伯克利分校(UC Berkeley)研究人员今年早些时候推出的SLAC(Rastic Potential Actor Critic)等顶级强化学习方法相比,LILAC在所有领域都能获得更高、更稳定的回报。

研究人员修改了奖励函数,使用分类器来区分源域和目标域的转换。他们在OpenAI Gym用三个任务来测试他们的方法。

雷锋网原创文章,。详情见转载须知。

他们在一篇关于LILAC的论文中写道:

“我们观察到,在具有显著非平稳性的各种连续控制任务中,与最先进的强化学习方法相比,我们的方法带来了实质性的改进。”例如,它能够更好地适应环境,机器人或自主车辆可以在天气条件变化较多(比如遇到雨雪环境)引入时运行这一方法。

作者在该动态强化学习环境中进行了四个测试,包括来自metaworld基准测试的Sawyer机器人、OpenAI Gym的Half-Cheetah和2D导航任务。

雷锋网(公众号:雷锋网)雷锋网

2020年IMF和世界银行秋季年会将于10月12日至18日以线上方式举行。(完)

一篇上周发布的域适配论文指出,“行为主体会因为转换而受到惩罚,转换可以表明行为主体是在与源域还是目标域交互。”“在一系列控制任务上的实验表明,我们的方法可以利用源域来学习在目标域中运行良好的策略,尽管只观察到目标域的少数转换。”