跳转至


课程  因子投资  机器学习  Python  Poetry  ppw  tools  programming  Numpy  Pandas  pandas  算法  hdbscan  聚类  选股  Algo  minimum  numpy  回测  数据标准化  algo  FFT  模式识别  配对交易  GBDT  LightGBM  XGBoost  statistics  CDF  KS-Test  monte-carlo  VaR  过拟合  algorithms  machine learning  strategy  python  sklearn  pdf  概率  数学  面试题  量化交易  策略分类  风险管理  Info  interview  career  强化学习  监督学习  AI量化  复权  数据  tushare  akshare  xgboost  PCA  wavelet  时序事件归因  SHAP  Figures  Behavioral Economics  graduate  arma  garch  人物  职场  Quantopian  figure  Banz  金融行业  买方  卖方  story  量化传奇  rsi  zigzag  穹顶压力  因子  ESG  因子策略  投资  策略  pe  ORB  Xgboost  Alligator  Indicator  factor  alpha101  alpha  技术指标  wave  quant  algorithm  pearson  spearman  套利  LOF  白银  因子分析  Alphalens  涨停板  herd-behaviour  momentum  因子评估  review  SMC  聪明钱  trade  history  indicators  zscore  波动率  lightgbm  顶背离  另类数据  freshman  resources  others  AI  DeepSeek  network  量子计算  金融交易  IBM  weekly  进化论  logic-factor  machine-learning  neutralization  basics  LLT  backtest  backtrader  研报  papers  UBL  quantlib  jupyter-notebook  scikit-learn  pypinyin  qmt  xtquant  blog  static-site  duckdb  工具  colors  free resources  barra  world quant  Alpha  openbb  risk-management  llm  prompt  CANSLIM  Augment  arsenal  copilot  vscode  code  量化数据存储  hdf5  h5py  cursor  augment  trae  Jupyter  jupysql  pyarrow  parquet  数据源  quantstats  几何收益  实盘  clickhouse  polars  滑动窗口  notebook  sqlite  sqlite-utils  fastlite  大数据  PyArrow  UV  Pydantic  Engineering  redis  remote-agent  AI-tools  Moonshot  回测,研报,tushare  dividend 

algo »

强化学习 vs 监督学习:AI炒股的两种思路


强化学习 vs 监督学习:AI炒股的两种思路

一、先看个生活中的例子

假设你要教一个小朋友炒股:

方法一:监督学习

1
2
3
4
你给他1000张K线图
每张图都标注了"第二天涨"或"第二天跌"
让他记住:"这种形态=涨"、"那种形态=跌"
然后考试:给新图,让他预测

方法二:强化学习

1
2
3
你给他100万虚拟资金
说:"你自己去炒,赚钱了我给你糖吃,亏钱了我打你手心"
他不记得具体形态,但慢慢学会了"什么时候该买、什么时候该卖"

💡 这就是两者的本质区别


二、监督学习:有标准答案的考试

2.1 什么是监督学习?

监督学习 = 有老师教 = 有标准答案

三要素:

要素 说明 金融中的例子
输入(X) 股票历史数据 价格、成交量、MACD等
标签(Y) 标准答案 第二天涨/跌
目标 学会映射函数 从X预测Y

2.2 在金融中的例子

训练数据:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
┌─────────────────────────────────────┬──────────┐
│ 输入特征(X)                        │ 标签(Y) │
├─────────────────────────────────────┼──────────┤
│ 过去20天涨幅: +15%                  │          │
│ 成交量: 放大2倍                      │  上涨    │
│ MACD: 金叉                          │   (+1)   │
│ RSI: 65                            │          │
├─────────────────────────────────────┼──────────┤
│ 过去20天涨幅: -10%                  │          │
│ 成交量: 萎缩                        │  下跌    │
│ MACD: 死叉                          │   (-1)   │
│ RSI: 30                            │          │
└─────────────────────────────────────┴──────────┘

模型学到的:

1
2
"涨幅大+放量+MACD金叉 → 涨"
"跌幅大+缩量+MACD死叉 → 跌"

2.3 监督学习的优点

简单直接 — 有明确目标,容易训练
可解释性强 — 知道模型为什么预测涨/跌
数据利用率高 — 每张图都能用来训练
成熟工具多 — XGBoost、LightGBM、神经网络都很成熟

2.4 监督学习在金融中的问题

问题1:标签难定义

同样是"均线多头排列": - 2020年3月:美联储放水 → 大涨 - 2022年3月:美联储加息 → 大跌 - 同一个形态,标签相反,模型学懵了

问题2:过拟合严重 - 模型记住了历史数据的每一个细节 - 但市场一变,规律就变了 - 回测90%准确率,实盘50%(不如抛硬币)

问题3:只看短期,不顾长期 - 预测"明天涨",但不管"后天跌" - 今天买入涨了1%,明天暴跌10% - 总体还是亏


三、强化学习:在实战中学习

3.1 什么是强化学习?

强化学习 = 没有老师 = 只有奖励和惩罚

四要素:

要素 说明 金融中的例子
状态(State) 当前市场情况 价格、持仓、资金等
动作(Action) 采取的行动 买/卖/持有/买多少
奖励(Reward) 反馈信号 赚钱=正奖励,亏钱=负奖励
目标 长期累计奖励最大 学会最优交易策略

3.2 在金融中的例子

回合1:

1
2
3
4
状态:现金100万,茅台股价1800
动作:买入50万
结果:1周后股价涨到1900
奖励:+2.7万 ✅

回合2:

1
2
3
4
状态:现金50万,持仓50万
动作:再买入30万
结果:1周后股价跌到1700
奖励:-5.3万 ❌

回合3:

1
2
3
4
状态:现金20万,持仓80万
动作:卖出40万
结果:1周后股价跌到1600
奖励:+4万 ✅(少亏了)

1000个回合后,模型学会了:

1
2
3
"涨多了要分批卖"
"跌多了要观望,不急着抄底"
"永远留现金,不满仓"

3.3 强化学习的优点

延迟奖励 — 不只看明天,看长期收益
自适应 — 市场变了,策略自动调整
无需标签 — 不需要人工标注涨/跌
探索能力 — 会尝试新策略,发现隐藏规律

3.4 强化学习在金融中的挑战

挑战1:训练慢 - 需要成千上万次交易才能学会 - 实盘不可能,只能用历史数据模拟 - 模拟和实盘有差距

挑战2:奖励设计难 - 赚钱=+1,亏钱=-1? - 但风险控制也很重要 - 怎么把"不爆仓"设计进奖励函数?

挑战3:探索成本高 - 要尝试各种策略才知道哪个好 - 但金融市场试错成本极高 - 一次大亏可能就出局了


四、核心对比

4.1 学习方式对比

对比项 监督学习 强化学习
学习方式 老师教(有标准答案) 实战练(只有奖惩)
目标 预测准确 赚钱最多
时间维度 短期(明天涨/跌) 长期(30天总收益)
数据需求 需要标注数据 只需要历史价格
适应性 差(市场一变就失效) 强(自动调整策略)
可解释性 强(知道为什么预测) 弱(黑盒策略)
训练难度 简单 困难

4.2 用炒股的比喻

监督学习像什么?

1
2
3
像背K线图
"这种形态历史上涨,我也买"
但不知道为什么要买

强化学习像什么?

1
2
3
4
像实盘交易积累经验
"上次这时候买赚了,这次还买"
"上次这时候买亏了,这次观望"
慢慢形成自己的交易纪律

五、哪种更适合金融量化?

5.1 监督学习适合的场景

场景 说明
数据规律稳定 某些因子长期有效(如市盈率、ROE),市场风格不频繁切换
短期预测 日内高频交易、套利策略(期限套利、跨市场套利)
有明确标签 涨/跌二分类、收益率回归

5.2 强化学习适合的场景

场景 说明
长期策略优化 资产配置、仓位管理、止损止盈策略
复杂决策 多因子动态权重、多资产组合优化、考虑交易成本的策略
市场适应性要求高 趋势跟踪、动态对冲

5.3 实际应用的建议

新手建议:

1
2
3
1. 先从监督学习开始(XGBoost、LSTM)
2. 理解数据、特征、模型
3. 知道监督学习的局限

进阶建议:

1
2
3
1. 尝试强化学习(DQN、PPO)
2. 从简单场景开始(单股票、固定仓位)
3. 慢慢增加复杂度

高手建议:

1
2
3
1. 监督学习+强化学习结合
2. 监督学习做特征提取
3. 强化学习做决策优化

六、总结

一句话记住

方法 核心逻辑
监督学习 "这种形态历史上涨,所以我现在买"
强化学习 "我买了之后长期能赚钱,所以现在买"

选择指南

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
┌─────────────────────────────────────────────┐
│                                             │
│  你的场景是什么?                            │
│                                             │
│  1. 有明确标签,规律稳定                      │
│     → 用监督学习(XGBoost/LSTM)             │
│                                             │
│  2. 需要长期优化,动态调整                    │
│     → 用强化学习(DQN/PPO)                  │
│                                             │
│  3. 两者都要                                  │
│     → 监督学习提取特征 + 强化学习做决策       │
│                                             │
└─────────────────────────────────────────────┘

💡 看完这篇,你应该知道该选哪种方法了。

记住:没有最好的方法,只有最适合的方法。