Reinforcement Learning
4/3/26About 3 min
Reinforcement Learning
1. 核心算法分类
强化学习算法主要根据智能体(Agent)学习策略的方式进行分类:
- 基于价值(Value-based):
- DQN (Deep Q-Network):将深度学习与 Q-Learning 结合,通过神经网络估计每个动作的价值。
- 特点:适用于动作空间较小的离散任务。
- 基于策略(Policy-based):
- REINFORCE:直接对策略进行参数化,通过奖励的梯度提升优秀动作的概率。
- 演员-评论家(Actor-Critic):
- PPO (Proximal Policy Optimization):目前工业界最主流、最稳定的算法,也是 LLM 训练(RLHF)的标准配置。
- SAC (Soft Actor-Critic):引入最大熵机制,鼓励智能体探索更多可能性,在连续控制任务(如机器人运动)中表现极佳。
- 基于模型(Model-based):
- 智能体尝试构建一个环境的“内部模型”(World Model),在想象中进行规划,极大提高了样本利用率。
2. 主要应用场景
- 大语言模型推理与对齐 (LLM Reasoning & Alignment):
- RLHF (基于人类反馈的 RL):让模型学习人类偏好,解决“幻觉”问题。
- RLVR (基于可验证反馈的 RL):2025 年的新趋势。针对数学、代码等任务,利用编译器或测试用例作为自动奖励,驱动模型产生长程推理逻辑(如 DeepSeek-R1)。
- 机器人与自动化 (Robotics):
- 用于机械臂抓取、多足机器人行走及端到端自动驾驶(如 Tesla FSD v12+)。
- 工业调度与优化 (Industrial Optimization):
- 智能电网能量调度、数据中心散热控制、供应链补货策略。
- 金融交易 (Algorithmic Trading):
- 在波动的市场中进行高频交易和风险对冲。
3. 当前面临的主要挑战
虽然 RL 潜力巨大,但仍存在以下公认的难点:
- 样本效率极低 (Sample Inefficiency):通常需要数百万次尝试才能学会简单任务,训练成本极高。
- 奖励函数设计难 (Reward Shaping):如果奖励设得不好,Agent 会产生“奖励黑客”(Reward Hacking)行为,即通过钻空子获得高分但不完成目标。
- 稀疏奖励问题 (Sparse Rewards):在复杂任务(如走迷宫)中,只有最终胜利才有奖励,中间过程没有任何反馈,导致 Agent 难以起步。
- Sim-to-Real 鸿沟:在仿真环境中训练出的策略,在现实物理世界中往往因为噪音和延迟而失效。
4. 目前的研究进展 (2025 年趋势)
- 从 RLHF 转向 RLVR (Verifiable Rewards): 过去依赖人类标注,现在更倾向于利用自动判题机提供确定的奖励信号。这使得模型可以进行大规模自我演化(Self-Evolution),这也是 2025 年推理模型突破的核心。
- 离线强化学习 (Offline RL): 研究如何直接从静止的历史数据集中学习,而不需要与环境进行实时交互,这解决了安全性和交互成本问题。
- 世界模型 (World Models): 如 Sora 等技术展示了对物理世界的模拟能力,研究者正尝试在模型内部建立更精准的物理预测,让 Agent 在虚拟“大脑”中完成大部分学习。
- 多智能体强化学习 (MARL): 研究多个 Agent 之间的协作与博弈,应用于无人机群协同、智慧城市交通管控等复杂系统。
- 层次化强化学习 (Hierarchical RL): 将长周期的复杂目标拆解为多个子任务(Sub-goals),有效解决复杂决策序列的学习难题。
