algo »

强化学习 vs 监督学习：AI炒股的两种思路

最后更新: 2026-03-23

Table of Content

强化学习 vs 监督学习：AI炒股的两种思路¶

一、先看个生活中的例子¶

假设你要教一个小朋友炒股：

方法一：监督学习

你给他1000张K线图
每张图都标注了"第二天涨"或"第二天跌"
让他记住："这种形态=涨"、"那种形态=跌"
然后考试：给新图，让他预测

方法二：强化学习

你给他100万虚拟资金
说："你自己去炒，赚钱了我给你糖吃，亏钱了我打你手心"
他不记得具体形态，但慢慢学会了"什么时候该买、什么时候该卖"

💡 这就是两者的本质区别。

二、监督学习：有标准答案的考试¶

2.1 什么是监督学习？¶

监督学习 = 有老师教 = 有标准答案

三要素：

要素	说明	金融中的例子
输入（X）	股票历史数据	价格、成交量、MACD等
标签（Y）	标准答案	第二天涨/跌
目标	学会映射函数	从X预测Y

2.2 在金融中的例子¶

训练数据：

┌─────────────────────────────────────┬──────────┐
│ 输入特征（X）                        │ 标签（Y） │
├─────────────────────────────────────┼──────────┤
│ 过去20天涨幅: +15%                  │          │
│ 成交量: 放大2倍                      │  上涨    │
│ MACD: 金叉                          │   (+1)   │
│ RSI: 65                            │          │
├─────────────────────────────────────┼──────────┤
│ 过去20天涨幅: -10%                  │          │
│ 成交量: 萎缩                        │  下跌    │
│ MACD: 死叉                          │   (-1)   │
│ RSI: 30                            │          │
└─────────────────────────────────────┴──────────┘

模型学到的：

"涨幅大+放量+MACD金叉 → 涨"
"跌幅大+缩量+MACD死叉 → 跌"

2.3 监督学习的优点¶

✅ 简单直接 — 有明确目标，容易训练
✅ 可解释性强 — 知道模型为什么预测涨/跌
✅ 数据利用率高 — 每张图都能用来训练
✅ 成熟工具多 — XGBoost、LightGBM、神经网络都很成熟

2.4 监督学习在金融中的问题¶

❌ 问题1：标签难定义

同样是"均线多头排列"： - 2020年3月：美联储放水 → 大涨 - 2022年3月：美联储加息 → 大跌 - 同一个形态，标签相反，模型学懵了

❌ 问题2：过拟合严重 - 模型记住了历史数据的每一个细节 - 但市场一变，规律就变了 - 回测90%准确率，实盘50%（不如抛硬币）

❌ 问题3：只看短期，不顾长期 - 预测"明天涨"，但不管"后天跌" - 今天买入涨了1%，明天暴跌10% - 总体还是亏

三、强化学习：在实战中学习¶

3.1 什么是强化学习？¶

强化学习 = 没有老师 = 只有奖励和惩罚

四要素：

要素	说明	金融中的例子
状态（State）	当前市场情况	价格、持仓、资金等
动作（Action）	采取的行动	买/卖/持有/买多少
奖励（Reward）	反馈信号	赚钱=正奖励，亏钱=负奖励
目标	长期累计奖励最大	学会最优交易策略

3.2 在金融中的例子¶

回合1：

状态：现金100万，茅台股价1800
动作：买入50万
结果：1周后股价涨到1900
奖励：+2.7万 ✅

回合2：

状态：现金50万，持仓50万
动作：再买入30万
结果：1周后股价跌到1700
奖励：-5.3万 ❌

回合3：

状态：现金20万，持仓80万
动作：卖出40万
结果：1周后股价跌到1600
奖励：+4万 ✅（少亏了）

1000个回合后，模型学会了：

"涨多了要分批卖"
"跌多了要观望，不急着抄底"
"永远留现金，不满仓"

3.3 强化学习的优点¶

✅ 延迟奖励 — 不只看明天，看长期收益
✅ 自适应 — 市场变了，策略自动调整
✅ 无需标签 — 不需要人工标注涨/跌
✅ 探索能力 — 会尝试新策略，发现隐藏规律

3.4 强化学习在金融中的挑战¶

❌ 挑战1：训练慢 - 需要成千上万次交易才能学会 - 实盘不可能，只能用历史数据模拟 - 模拟和实盘有差距

❌ 挑战2：奖励设计难 - 赚钱=+1，亏钱=-1？ - 但风险控制也很重要 - 怎么把"不爆仓"设计进奖励函数？

❌ 挑战3：探索成本高 - 要尝试各种策略才知道哪个好 - 但金融市场试错成本极高 - 一次大亏可能就出局了

四、核心对比¶

4.1 学习方式对比¶

对比项	监督学习	强化学习
学习方式	老师教（有标准答案）	实战练（只有奖惩）
目标	预测准确	赚钱最多
时间维度	短期（明天涨/跌）	长期（30天总收益）
数据需求	需要标注数据	只需要历史价格
适应性	差（市场一变就失效）	强（自动调整策略）
可解释性	强（知道为什么预测）	弱（黑盒策略）
训练难度	简单	困难

4.2 用炒股的比喻¶

监督学习像什么？

像背K线图
"这种形态历史上涨，我也买"
但不知道为什么要买

强化学习像什么？

像实盘交易积累经验
"上次这时候买赚了，这次还买"
"上次这时候买亏了，这次观望"
慢慢形成自己的交易纪律

五、哪种更适合金融量化？¶

5.1 监督学习适合的场景¶

场景	说明
✅ 数据规律稳定	某些因子长期有效（如市盈率、ROE），市场风格不频繁切换
✅ 短期预测	日内高频交易、套利策略（期限套利、跨市场套利）
✅ 有明确标签	涨/跌二分类、收益率回归

5.2 强化学习适合的场景¶

场景	说明
✅ 长期策略优化	资产配置、仓位管理、止损止盈策略
✅ 复杂决策	多因子动态权重、多资产组合优化、考虑交易成本的策略
✅ 市场适应性要求高	趋势跟踪、动态对冲

5.3 实际应用的建议¶

新手建议：

先从监督学习开始（XGBoost、LSTM）
理解数据、特征、模型
知道监督学习的局限

进阶建议：

尝试强化学习（DQN、PPO）
从简单场景开始（单股票、固定仓位）
慢慢增加复杂度

高手建议：

监督学习+强化学习结合
监督学习做特征提取
强化学习做决策优化

六、总结¶

一句话记住¶

方法	核心逻辑
监督学习	"这种形态历史上涨，所以我现在买"
强化学习	"我买了之后长期能赚钱，所以现在买"

选择指南¶

┌─────────────────────────────────────────────┐
│                                             │
│  你的场景是什么？                            │
│                                             │
│  1. 有明确标签，规律稳定                      │
│     → 用监督学习（XGBoost/LSTM）             │
│                                             │
│  2. 需要长期优化，动态调整                    │
│     → 用强化学习（DQN/PPO）                  │
│                                             │
│  3. 两者都要                                  │
│     → 监督学习提取特征 + 强化学习做决策       │
│                                             │
└─────────────────────────────────────────────┘

💡 看完这篇，你应该知道该选哪种方法了。

记住：没有最好的方法，只有最适合的方法。