太阳集团tyc151(集团)有限公司-搜狗百科

光熙论坛第802期：迁移强化学习中的价值函数初始化

发布人：李彤发布时间：2023-10-27 浏览次数:70

题目 : 迁移强化学习中的价值函数初始化

主讲人: MEHIMEH SOUMIA

时间: 2023年10月30日8:30-9:30

地点: 新技术楼907

研究方向: 强化学习、迁移学习、优化初始化

主要内容:

在强化学习中，知识迁移是一个正在不断发展和扩展的研究领域。研究学者们积极探索使一个智能体能够学习多个任务的方法论，而不是为单独的任务开发个别模型。这些方法旨在通过利用相关知识和先前经验，使智能体能够减少样本复杂性下并加速其学习过程。分配给智能体的任务是从一个分布中采样的，可以在奖励（如目标位置）或环境中的动力学方面变化。知识迁移的一种形式是初始化参数，例如价值函数。在接收到新任务时，智能体在与环境交互之前基于从先前经验中获得的信息构建初始价值函数。这种知识转移过程类似于传统机器学习和统计学中的预测，依赖于统计和概率信息。然而，许多迁移强化学习方法在初始化参数时没有考虑到任务分布内的概率信息。在这个论坛中，我们探讨了任务分布生成的概率信息对价值函数初始化的关键影响。因此，我们提出了解决这些挑战的研究。第一个是不确定性和置信感知优化初始化（Uncertainty and Confidence Aware Optimistic Initialization，UCOI），它解决了在新任务中对价值函数进行优化初始化的问题，并提出使用不确定性对抗置信来决定何时使用优化初始化。第二项研究解决了任务正常分布在动力学和奖励函数方面发生变化的情景，并提出使用z分数表测量置信区间的这个众所周知的统计方法来解决该问题。最后，我们介绍如何将这些方法应用于连续领域和实际应用。

主讲人简介：MEHIMEH SOUMIA，太阳集团tyc151博士研究生，主要研究方向为强化学习、迁移学习等。