吕仲琪:恰好崔老师与 GRPO 的编辑有所了解,正好我也有些疑问与崔老师进行讨论。为什么编辑在做 GRPO 研究时决定放弃传统的价值函数(Value Function)?我之前的猜测是,当大家对某个任务的判断不准确时,可能会把 Value Function 隐藏在其他地方进行评估和计算。但我不太确定我的猜测是否准确?
崔淦渠:直观来看,Value Function 其实非常难训练。大家最初可能都是按照 OpenAI 使用 PPO 算法这样的路径探索的,而 PPO 算法依赖于 Value Function。但是问题是,PPO 算法本身比较复杂,涉及大量的参数调整。我曾在 2023 年尝试过训练 PPO,结果花了近两个月时间才得到一个勉强合格的模型。
对于大多数人来说,并没有足够的耐心和动力来训练 PPO。因此,我猜测,GRPO编辑可能想探索一种方式,看看在强化学习中哪些部分是必须的,哪些又是冗余的。最终他发现,去掉 Value Function 并不会显著影响模型性能,反而还减少了计算开销和训练的不稳定性。
吕仲琪:确实,去掉 Value Function 是一个非常有意思的点。我也在想,可能是因为现在的大模型在初始阶段已经具备了相对可靠的推理能力,所以 Value Function 的纠偏作用变得不那么重要。也许过去,Value Function 对训练中的偏差修正至关重要,但如今的大模型本身已经足够强大,能够生成高质量的策略,因此 Value Function 的价值就降低了。这或许是五年前或者十年前大家无法看到 GRPO 算法的原因,因为那时的基础尚不具备。
崔淦渠:我完全认同吕老师的观点。用强化学习的术语来说,大模型本身已经是一个非常强大的策略模型(policy model),它生成的回复通常质量较高。而Value Function 的主要作用就是降低方差,减少极端情况的发生。在过去,比如在围棋(如 AlphaGo)或机器人领域,强化学习模型的初始策略非常弱,训练过程中可能会做出很多错误的决策,这时需要 Value Function 来纠偏。但对于现在的大模型,它们的初始策略已经非常强大,所以 Value Function 的重要性就显得相对较小了。
唐小引:崔老师能否为大家从技术角度系统地拆解一下 GRPO 算法及其在算法层面的创新,对 PPO 改进、去掉 Value Function 的来龙去脉?
唐小引:我最近阅读了崔老师的论文“Process Reinforcement through Implicit Rewards”(https://huggingface.co/papers/2502.01456),即结合过程奖励的强化学习方法 PRIME,编辑一栏中也看到了大家熟知的名字,如丁宁、周伯文、孙茂松、刘知远及诸多战在一线的 AI 研究员们,能否分享一下 PRIME 背后的故事?
崔淦渠:其实 PRIME 这项工作是大家团队(上海人工智能实验室与清华大学等联合团队)在过去半年多时间里共同完成的,编辑列表中有二十多位成员。大家在 DeepSeek R1 发布之前的三周就发布了这篇论文。发布时,大家的心情还是挺复杂的。
近期备受关注的一个方向是测试时扩展(TTS,Test-Time Scaling)。李飞飞团队于近日发布的一篇论文“s1:Simple test- time scaling”(https://arxiv.org/abs/2501.19393)提出了一种极为简单但有效的方法来进行测试时扩展。具体做法是,在模型生成答案后,不直接结束,而是添加一个“wait”命令,强制模型“再想一会儿”后再输出答案。这种方法虽基础,却显著提升了推理表现,说明只要推理过程中计算资源充足,问题解决质量就能提高。
除此之外,模型提升推理效率也是一个重要方向。使用 DeepSeek 时,用户可能会注意到其推理时间较长,部分复杂问题甚至需要几分钟才能得出答案。为了优化体验,大家也希翼缩短推理时间、降低延迟,以提高效率并节约计算成本。其实与 DeepSeek 同期的 Kimi 团队也提出了类似的研究,探讨了如何缩短思考时间和提升推理效率。对学术界和工业界来说,这将是一个很有前景的研究方向。
一是 MoE(混合专家模型)。它在未来可能会演变成一个主流架构。MoE 适用于超大规模模型,能通过减少激活参数降低推理成本,使 API 服务更具成本效益。然而,对于运行在手机或 P 端的小型模型,MoE 并不适用。DeepSeek 通过 MoE 结构优化了推理成本,这是其能够提供低价 API 的关键。
所以,我认为未来生产力的提升将极大地改变就业形式和工作范围。大语言模型能够完成许多重复性的工作,真正需要依赖它们的就是这些任务。大家可以把这些工作交给大语言模型和 AI 来处理,而自己则可以专注于更具人类优势的领域,比如探索职业发展的新增长点。这是一个非常开放的话题,未来,年薪百万的岗位必定会出现在大语言模型无法替代的领域,而且这种机会很可能很快就会出现。
唐小引:近期一些高校正在检查学生的论文 AI 生成率,并采取措施降低这一比例。这种情况属实吗?
吕仲琪:这是大家所有老师的共识,必须降低 AI 的论文生成率。
唐小引:最初很多人提倡在论文、工作或文章中使用 AI,但现在风向似乎发生了变化。你认为未来高校会明确禁止学生在论文中使用 AI 吗?
吕仲琪:我预测——这种使用方式最终可能会被禁止。从学术层面而言,完全依赖 AI 生成内容,应该被视为学术不端。毕竟,论文上署名的是学生和导师,但并没有署上 AI 的名字。如果学生使用了 AI 生成的内容,应该要求署名 AI 的贡献,否则这种行为是不合适的。
崔淦渠:我赞同吕老师的观点,AI 不应被过度依赖。虽然 AI 的能力很强,但我认为它只能在某种程度上成为大家的助手。例如,当遇到不熟悉的概念时可以向 AI 求助,但其输出的内容可能存在“幻觉”,所以需要自行验证来确保信息的真实性。
同时,过渡依赖 AI 会削弱实践和思考的机会。人类和 AI 的合作能有效解决一些复杂问题,尤其是在 AI 能够逐步克服难题的领域。同时,随着 AI 确定性的增强,它会取代一些重复性劳动,优化自动化流程,例如操控电脑、手机等,这是 AI 改变生活的一种方式。然而,AI 无法替代人的学习和思考,因此应该将其视为工具,而不是让其完全取代大家的工作。
唐小引:对于离 AI 最近的程序员来说,一方面,模型的代码能力依然在突飞猛进,从最开始因其局限性令人嗤之以鼻,但现在能力越来越强了;另一方面,Sam Altman、扎克伯格都说过,未来 AI Agent 能够完成大部分经验 3 - 5 年的App工程师。怎么看待和处理 AI 与程序员之间的关系?
崔淦渠:未来,程序员将不可避免地使用 AI,甚至可以说 AI 将成为核心竞争力。没有 AI,程序员的生产力将大幅下降。然而,如何高效运用 AI 可能成为衡量程序员水平的重要标准。一些人或许会完全依赖 AI 完成任务,但这种方式不可取,因为 AI 仍有局限,且依赖 AI 可能导致程序员无法判断代码的质量与改进空间。在初级场景中,AI 可承担部分任务,但在更高级的应用中,它更适合作为辅助工具,帮助检查、纠错,并探索更优的实现方案。
程序员无疑是最早受 AI 影响的群体之一,并且由于直接参与 AI 的设计与开发,他们对 AI 的理解和掌握也将最为深入。
吕仲琪:我觉得程序员大致可分为三类:
第一类是设计 AI 的程序员,包括像 DeepSeek 工程师、负责大模型微调的工程师,主要从事算法和训练工作。这类程序员无需担忧 AI 取代他们,相反,大模型的发展可能为他们创造更多机会。
第二类是高级程序员,例如开发 Spring Boot 框架、从事前端 UI 设计的共曾是,这类程序员可称之为创造型程序员。我认为他们也不会受到 AI 的威胁,尽管 AI 具备多种能力,但仍受限于人类对程序架构和基础设施的理解,因此这类程序员的价值不会被取代。
第三类是重复性任务实行者,即传统意义上的“码农”,主要通过拼接框架和模块完成标准化任务。这类工作面临 AI 的直接冲击,因为 AI 能 24 小时无间断实行相同任务。因此,从事重复性开发的程序员应提升技能,学习如何高效利用 AI,以适应行业变革。
唐小引:当 AI 变得越来越“像人” 的时候,大家是否应该反思人类智能的独特性和价值?在 AI 时代,人类的核心竞争力将会是什么?大家应该如何重新定义 “教育” 和 “学习”?
吕仲琪:人的成长曲线独特且不可替代,不会因一款大模型的出现而改变。
作为父母,大家见证孩子成长、学习的喜悦,这是 AI 无法取代的。作为个体,大家在学习过程中收获常识、掌握技能、获得认可,这些成就感也是机器无法给予的。作为教师,我想对学生们说——无论 AI 如何发展,机器有其优势,而人类的价值同样不可替代。关键在于深入体验学习的过程,不断提升自我。
如果有一天,大家的作品不如 AI,这并不可怕,而是一个提醒——应当反思并向 AI 学习,将其视为工具与对手,不断超越。能从机器中学习,并做得更好,难道不是一件更有意义的事吗?
崔淦渠:我更倾向于从学生的角度来看待 AI 在教育中的应用。目前,清华大学等高校已在积极探索这一方向,例如刘知远教授研究如何更有效地将 AI 融入教学。大家也尝试在 MOOC(大规模在线课程)中引入 AI 助教,甚至由 AI 完全授课,这些实验已取得良好反馈,证明 AI 在教育领域具有巨大潜力。此外,清华今年为每位学生配备了 AI 助手,可提供校内信息查询、课程资源、学习辅导,甚至校规解答,提升了信息获取的便捷性,优化了学习体验。
AI 对教育的影响是一个渐进过程,不会马上颠覆传统模式,而是以润物细无声的方式重塑教育形态。未来,AI 有望推动更大变革,使学习更加智能、高效。