2024年1月16日,研究团队博士生张晗论文 “CPPO: Continual Learning for Reinforcement Learning with Human Feedback” 获ICLR 2024 录用。ICLR全称 International Conference on Learning Representations,是深度学习领域的国际顶级学术会议,在清华大学计算机学科推荐期刊会议列表中被列为A类会议。ICLR 2024将于2024年5月7日至5月11日在奥地利维也纳召开。
论文简介如下:
标题:CPPO: Continual Learning for Reinforcement Learning with Human Feedback
作者:张晗,雷余,桂林,杨敏,何瑜岚,王晖,徐睿峰*
简介:从人类反馈中进行强化学习(Reinforcement Learning from Human Feedback, RLHF)是增强大语言模型(LLM)能力的一种有效方法,可以使其更好地符合人类价值观。由于人类偏好可能在不同领域或主题之间存在差异,因此,基于RLHF的语言模型在引入新的话题和人类反馈数据时需要重新训练。但是重新训练语言模型需要大量的时间和计算成本,以及涉及数据隐私的考虑,这在大多数实际场景中是不切实际的。为了解决这一限制,论文提出了一种新的方法,称为持续近端策略优化(Continual Proximal Policy Optimization, CPPO)。该方法能够持续地训练语言模型与人类偏好保持一致而无需重新训练。CPPO采用了一种加权策略,用于决定哪些样本应该用于增强策略学习,哪些应该用于保留历史经验,以寻求在策略学习和历史知识保留之间实现良好的权衡。实验结果显示,与持续学习(Continual Learning, CL)基线相比,CPPO在持续对齐人类偏好上表现更好。此外,与PPO相比,CPPO在非持续情境中具有更高效稳定的学习效果。
图 CPPO算法流程