C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  中尉

注册:2010-4-285
发表于 2025-2-19 13:06:41 |显示全部楼层

强化学习训练数据越多,模型推理能力就越强?新研究提出LIM方法,揭示提升推理能力的关键在于优化数据质量,而不是数据规模。该方法在小模型上优势尽显。从此,强化学习Scaling Law可能要被改写了!

DeepSeek-R1带火了使用强化学习训练LLM。在训练中,AI灵机一动,让编辑耳目一新,甚至因此惊叹到:这就是强化学习的力与美!

亚星游戏官网-yaxin222


DeepSeek-R1-Zero惊艳了研究人员


然而,对RL训练的理解存在空白:这些工作的训练数据的透明度有限,谁知道是方法好还是数据集质量好?

刚刚出炉的新论文揭示了RL训练的另一面,探讨了一个核心问题:
在提升语言模型推理能力方面,什么真正决定了强化学习(RL)训练数据的有效性?
研究团队对「扩大RL训练数据规模,就能提升模型性能」这一观念提出了挑战。

核心发现是,训练样本的质量和相关性远比数量重要。

通过广泛的实证分析,新研究得出了一些令人惊讶的观察结果,这些结果从根本上改变了对RL训练动态的理解:

经过精心挑选的1389个RL训练样本子集,可以实现和8523个样本的完整数据集相当甚至更优的性能。

新方法「学习影响测量」(LIM),可以有效地预测哪些样本对模型改进的贡献最大,消除了手动样本管理的需要,而且易于扩展。

通往更好推理能力的道路,可能不在于简单地扩大RL训练数据规模,而在于更具选择性地使用哪些样本。

亚星游戏官网-yaxin222


项目地址:https://github.com/GAIR-NLP/LIMR


Scaling Law适用于强化学习训练吗?

在这项工作中,在一个基本场景,探索RL训练数据的Scaling Law:直接从没有经过常识蒸馏的基础模型开始(类似于Deepseek R1-zero的设置)。

对RL训练数据需求的理解不足,面临下列难题:

由于缺乏明确的数据规模基准,必须依赖反复试验,导致资源利用效率低下,而结果也可能不是最优的。

样本数量如何影响模型性能,该领域缺乏对该问题的系统分析,很难做出资源分配的明智决策。

更重要的是,这种不确 定性提出了关键问题:
扩大RL训练数据规模真的是提高模型性能的关键吗?

或者是否忽略了更基本的因素,例如样本质量和选择标准?
学习影响测量

学习影响测量(Learning Impact Measurement,LIM),是一种系统的方法,用于量化和优化强化学习中训练数据的价值。

新方法通过分析学习动态,识别最有效的训练样本,从而应对强化学习训练中数据效率的关键挑战。

RL训练中的学习动态

为了理解训练数据和模型改进之间的关系,使用MATH-FULL数据集进行了广泛的分析,数据集包含8,523个难度级别不同的数知识题。

初步研究表明,不同的训练样本对模型学习的贡献是不平等的,这与将所有样本统一对待的传统方法相反。

如图2a所示,观察到不同的学习轨迹:一些样本表现出稳定的性能模式,而另一些样本则显示出复杂的学习动态,这些动态似乎驱动了显著的模型改进。

图a解题奖励轨迹揭示了不同的模式:保持接近零奖励的样本、快速获得高奖励的样本,以及显示出具有不同改进率的动态学习进展的样本。

图b表明较高的LIM分数反映了与模型学习轨迹更好的对齐,其中显示出相似增长模式的轨迹获得更高的分数。

亚星游戏官网-yaxin222


图2:(a)MATH-FULL数据集中训练样本在不同epoch的学习动态分析。(b)样本学习轨迹与平均奖励曲线(红色)的比较。


这些观察结果引出了核心见解:检查单个样本与模型的整体学习进程的对齐程度,可以系统地衡量强化学习训练中数据的价值

这种理解构成了新方法LIM的基础。

学习影响测量(LIM)

LIM的核心是模型对齐的轨迹分析。

它根据训练样本对模型学习的贡献,来评估它们的价值。

新研究的主要发现是,学习模式与模型整体性能轨迹互补的样本往往对优化更有价值。

学习影响测量(LIM)主要分为两步:(1)分析模型对齐的轨迹;(2)计算一个归一化对齐分数。

考虑到神经网络学习通常遵循对数增长模式,使用模型的平均奖励曲线,作为衡量样本有效性的参考(图2b):

亚星游戏官网-yaxin222


其中:r_k^i表示样本i在epoch k的奖励;N是样本总数;K是总的epoch数。

对于每个样本,LIM计算一个归一化对齐分数:

亚星游戏官网-yaxin222


本质上,这个公式是在平均奖励变化趋势上,比较单个样本与整体的相似程度。

如果一个样本的奖励变化趋势与整体趋势高度一致(即,当整体奖励上升时,该样本的奖励也上升,反之亦然),那么它的对齐分数就会较高。

反之,如果一个样本的奖励变化趋势与整体趋势差异较大,那么它的对齐分数就会较低。

该分数量化了样本的学习模式与模型整体学习轨迹的对齐程度,分数越高表示对齐程度越好。

寻找「黄金」样本

基于对齐分数,LIM采用了选择性抽样策略:s_i>θ,其中θ作为质量阈值,可以根据具体要求进行调整。在实验中,研究人员设置θ=0.6产生了优化的数据集 (LIMR),其中包含来自原始数据集的1,389个高价值样本。

基线数据选择方法

在开发核心方法时,研究人员探索了几种替代方法,有助于最终方法的形成和验证。

这些方法为强化学习中的数据选择提供了宝贵的见解。

随机抽样基线(RAND):从MATH-FULL中随机选择1389个样本,以匹配主要方法的大小,为评估选择性抽样的有效性提供了一个基本的参考点。

线性进展分析方法(LINEAR):根据在训练周期中持续显示稳步改进的一致性,来评估样本。虽然这种方法捕获了逐渐进展的样本,但它经常错过有快速早期收益然后趋于稳定的有价值的样本。使 用阈值θ=0.7,此方法产生1189个样本。

奖励设计

与Deepseek R1类似,使用基于规则的奖励函数。

具体来说,对于正确答案,奖励为1;对于不正确但格式正确的答案,奖励为-0.5;对于格式错误的答案,奖励为-1。形式上,这可以表示为:

亚星游戏官网-yaxin222


实验结果

为了验证LIMR方法的有效性,研究团队开展了一系列实验。

在实验设置上,训练环节采用OpenRLHF框架中实现的近端策略优化(PPO)算法,以Qwen2.5-Math-7B为初始策略模型。

评估环节选择了多个具有挑战性的基准测试,包括MATH500、AIME2024和AMC2023。为提高评估效率,借助vLLM框架进行评估。

亚星游戏官网-yaxin222


从不同数据选择策略的对比来看,直接在Qwen-Math-7B上使用MATH-FULL数据集进行强化学习训练,模型性能有显著提升。

使用MATH-RAND数据集训练,与完整数据集相比,平均准确率下降8.1%;MATH-LINEAR的准确率损失为2%。

而LIMR尽管数据集规模减少了80%,但性能与MATH-FULL几乎相当。这充分证明在强化学习中,真正起关键作用的往往只是一小部分问题。

亚星游戏官网-yaxin222


进一步分析训练过程中的各项指标演变,发现LIMR和MATH-FULL的准确率曲线近乎一致,且均明显优于MATH-RAND。

在序列长度方面,MATH-FULL的训练曲线不稳定,而LIMR的曲线先下降后逐渐上升。训练奖励方面,LIMR的奖励曲线上升更快,最终接近1.0,这表明模型在训练过程中能够更有效地利用LIMR数据集进行学习。

亚星游戏官网-yaxin222


图4展示了在三个具有挑战性的基准测试上模型性能的对比分析。结果表明,LIMR在所有三个基准测试上的性能都与MATH-FULL相当,同时显著优于MATH-RAND。

值得注意的是,LIMR在AIME24和AMC23数据集上表现出色,有力证明了其性能提升并非归因于对单个数据集的过拟合,而是反映了模型数学推理能力的真正提高。

RL的数据效率优于SFT

研究者发现,对于数据稀疏且模型较小的情况,强化学习>监督微调

亚星游戏官网-yaxin222


研究者用来自s1的1000条数据和来自LIMO的817条数据,通过监督微调对Qwen-2.5-Math-7B进行训练,并与LIMR进行比较。

实验结果表明,在相同的约1000个问题下,与LIMO和s1相比,LIMR在AIME上的相对提升超过100%,在AMC23和MATH500上的准确率提高了10%以上。

这进一步强调了选择适合模型的数据,而不是盲目选择更具挑战性的数据的重要性。在数据稀疏的场景以及小模型应用中,强化学习结合有效的数据选择策略,能有效地提升模型的推理能力。

本文的方法不仅为研究人员提供了一种高效、可扩展的RL训练解决方案,还揭示了提升推理能力的关键可能在于优化数据质量,而非单纯增加数据量。

与监督微调(SFT)的对比实验表明,当RL结合高效的数据选择策略时,在数据有限的小模型上表现尤为突出。

参考资料:

https://github.com/GAIR-NLP/LIMR


来源:36kr

举报本楼

本帖有 2 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2025-2-22 16:27 , Processed in 0.219212 second(s), 17 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图