Reinforcement Learning

David Liu4/3/26About 3 min

Reinforcement Learning

1. 核心算法分类

强化学习算法主要根据智能体（Agent）学习策略的方式进行分类：

基于价值（Value-based）：
- DQN (Deep Q-Network)：将深度学习与 Q-Learning 结合，通过神经网络估计每个动作的价值。
- 特点：适用于动作空间较小的离散任务。
基于策略（Policy-based）：
- REINFORCE：直接对策略进行参数化，通过奖励的梯度提升优秀动作的概率。
演员-评论家（Actor-Critic）：
- PPO (Proximal Policy Optimization)：目前工业界最主流、最稳定的算法，也是 LLM 训练（RLHF）的标准配置。
- SAC (Soft Actor-Critic)：引入最大熵机制，鼓励智能体探索更多可能性，在连续控制任务（如机器人运动）中表现极佳。
基于模型（Model-based）：
- 智能体尝试构建一个环境的“内部模型”（World Model），在想象中进行规划，极大提高了样本利用率。

2. 主要应用场景

大语言模型推理与对齐 (LLM Reasoning & Alignment)：
- RLHF (基于人类反馈的 RL)：让模型学习人类偏好，解决“幻觉”问题。
- RLVR (基于可验证反馈的 RL)：2025 年的新趋势。针对数学、代码等任务，利用编译器或测试用例作为自动奖励，驱动模型产生长程推理逻辑（如 DeepSeek-R1）。
机器人与自动化 (Robotics)：
- 用于机械臂抓取、多足机器人行走及端到端自动驾驶（如 Tesla FSD v12+）。
工业调度与优化 (Industrial Optimization)：
- 智能电网能量调度、数据中心散热控制、供应链补货策略。
金融交易 (Algorithmic Trading)：
- 在波动的市场中进行高频交易和风险对冲。

3. 当前面临的主要挑战

虽然 RL 潜力巨大，但仍存在以下公认的难点：

样本效率极低 (Sample Inefficiency)：通常需要数百万次尝试才能学会简单任务，训练成本极高。
奖励函数设计难 (Reward Shaping)：如果奖励设得不好，Agent 会产生“奖励黑客”（Reward Hacking）行为，即通过钻空子获得高分但不完成目标。
稀疏奖励问题 (Sparse Rewards)：在复杂任务（如走迷宫）中，只有最终胜利才有奖励，中间过程没有任何反馈，导致 Agent 难以起步。
Sim-to-Real 鸿沟：在仿真环境中训练出的策略，在现实物理世界中往往因为噪音和延迟而失效。

4. 目前的研究进展 (2025 年趋势)

从 RLHF 转向 RLVR (Verifiable Rewards)：过去依赖人类标注，现在更倾向于利用自动判题机提供确定的奖励信号。这使得模型可以进行大规模自我演化（Self-Evolution），这也是 2025 年推理模型突破的核心。
离线强化学习 (Offline RL)：研究如何直接从静止的历史数据集中学习，而不需要与环境进行实时交互，这解决了安全性和交互成本问题。
世界模型 (World Models)：如 Sora 等技术展示了对物理世界的模拟能力，研究者正尝试在模型内部建立更精准的物理预测，让 Agent 在虚拟“大脑”中完成大部分学习。
多智能体强化学习 (MARL)：研究多个 Agent 之间的协作与博弈，应用于无人机群协同、智慧城市交通管控等复杂系统。
层次化强化学习 (Hierarchical RL)：将长周期的复杂目标拆解为多个子任务（Sub-goals），有效解决复杂决策序列的学习难题。