跳转至


课程  因子投资  机器学习  Python  Poetry  ppw  tools  programming  Numpy  Pandas  pandas  算法  hdbscan  聚类  选股  Algo  minimum  numpy  回测  数据标准化  algo  FFT  模式识别  配对交易  GBDT  LightGBM  XGBoost  statistics  CDF  KS-Test  monte-carlo  VaR  过拟合  algorithms  machine learning  strategy  python  sklearn  pdf  概率  数学  面试题  量化交易  策略分类  风险管理  Info  interview  career  复权  数据  tushare  akshare  xgboost  PCA  wavelet  时序事件归因  SHAP  Figures  Behavioral Economics  graduate  arma  garch  人物  职场  Quantopian  figure  Banz  金融行业  买方  卖方  story  量化传奇  rsi  zigzag  穹顶压力  因子  ESG  因子策略  投资  策略  pe  ORB  Xgboost  Alligator  Indicator  factor  alpha101  alpha  技术指标  wave  quant  algorithm  pearson  spearman  套利  LOF  白银  因子分析  Alphalens  涨停板  herd-behaviour  momentum  因子评估  review  SMC  聪明钱  trade  history  indicators  zscore  波动率  lightgbm  强化学习  顶背离  另类数据  freshman  resources  others  AI  DeepSeek  network  量子计算  金融交易  IBM  weekly  进化论  logic-factor  machine-learning  neutralization  basics  LLT  backtest  backtrader  研报  papers  UBL  quantlib  jupyter-notebook  scikit-learn  pypinyin  qmt  xtquant  blog  static-site  duckdb  工具  colors  free resources  barra  world quant  Alpha  openbb  risk-management  llm  prompt  CANSLIM  Augment  arsenal  copilot  vscode  code  量化数据存储  hdf5  h5py  cursor  augment  trae  Jupyter  jupysql  pyarrow  parquet  数据源  quantstats  实盘  clickhouse  polars  滑动窗口  notebook  sqlite  sqlite-utils  fastlite  大数据  PyArrow  UV  Pydantic  Engineering  redis  remote-agent  AI-tools  Moonshot  回测,研报,tushare  dividend 

Kronos

最后更新: 2026-01-12


  • slidev_themes/addons/slidev-addon-quantide-layout
  • slidev_themes/addons/slidev-addon-mouse-trail-pen
  • slidev_themes/addons/slidev-addon-array
  • slidev_themes/addons/slidev-addon-interactive-table
  • slidev_themes/addons/slidev-addon-card aspectRatio: 3/4 layout: cover-random-img-portrait

困局:通用时序模型为何在金融市场“水土不服”?

这几年,我们见证了 GPT 等大语言模型(LLM)如何通过“阅读”海量文本,学会了人类的语言、逻辑甚至创造力。以GPT为代表的大模型范式取得了巨大成功,进而也启发了像TimeGPT等时间序列基础模型的发展。在这一快速发展的研究领域中,金融市场成为时间序列基础模型极具挑战性的关键应用场景。之所以说它极具挑战性,核心症结在于 “模型训练基础” 与 “金融数据特性” 的双重不匹配。

一方面,现有通用时间序列基础模型的预训练语料库以电力负载、交通流量、太阳能发电等物理场景数据为主,金融序列在其预训练语料中占比极低。通用模型通过电力、交通等数据,它学到的是 “电力白天高、晚上低” 的日内周期、交通 “早晚高峰” 的双峰模式等物理驱动的稳定规律。这些规律具备极强的平稳性和可预测性。但K线序列却具有独特的低信噪比、强非平稳性。这些特性与通用时间序列基础模型的 归纳偏好严重不符,最终不仅使其在金融任务中的性能往往不及简单线性模型,更无法在广泛的量化金融场景中实现有效泛化。

另一方面,K 线是一种基于蜡烛图的多元时间序列,它记录了固定时间间隔内的开盘价、最高价、最低价、收盘价以及成交量和成交额这六维数据。这些序列构成了一种高度紧凑、信息密集的 “语言”,市场参与者通过它去解读价格的波动、波动率的状态、流动性的变化以及集体情绪的转变。

然而,对于一个多变量的时间序列模型,无论是像自回归积分移动平均这种经典的计量经济学模型,还是LSTM等机器学习模型,亦或是TimePGT等已有的通用时间序列基础模型,它们处理数据的方式本质上仍是数值计算。在这些模型的“视角”里,开盘价等 6 维数据虽然被同时输入,但它们仅仅被视为一组多维浮点向量,模型缺乏将这六个维度作为一个‘语义整体(K线形态)’来认知的机制。这种将 K 线拆解为纯数字的底层逻辑,往往导致模型难以捕捉诸如‘长下影线’等具有强金融含义的结构化特征。

因此,为了解决这些不足,清华大学李健团队在今年8月推出了 Kronos,这是一款基于仅解码器的transformer架构,专为金融 K 线数据打造的统一、可扩展预训练框架。kronos宇宙首次将 K 线数据视作具备逻辑的 “市场语言”,在这里,K 线及 K 线组合不再是孤立的数字序列,它们成为了承载市场运行状态、资金意图与趋势方向的表达载体,具备语义、语法与上下文依赖关系。

在深入了解 Kronos 的工作流程之前,我们不妨先聊聊它的命名。这个名字背后藏着研究团队的巧思与雄心。在希腊神话中,Kronos 是掌管时间的神明,象征着从混沌中梳理秩序、掌控时间流转的力量;而研究团队用 “Kronos” 命名,正是想借这层寓意,揭示模型的核心目标是要成为能理解金融时间序列混沌波动、并从中提炼规律的 “时间驾驭者”。

深度解读:Kronos 如何赋予 K 线“语义”?

Kronos的工作架构非常清晰明了,主要分为 “分词器” 和 “自回归模型” 两大核心部分,分别是下图的左右两张图。我们先聚焦第一部分——分词器。这一阶段的目标是将连续的 K 线数据,转化为机器可理解的 “金融语义单元(Token)”。

在 NLP 领域,token 是语言的最小单元,而在 Kronos 的体系中,金融市场语言的最小单位是 “语义单元”,这个单元由单根或多根 K 线共同构成。但原始 K 线包含开盘价、最高价等六维连续数据,没法直接成为承载语义的 “市场语言单元”,所以研究团队专门设计了针对 K 线的分词器(Tokenizer)。

它先将原始的 K 线序列(图上方的红绿 K 线)送入 “Tokenizer Encoder”,通过 BSQ(二进制球面量化)技术,把开盘价、成交量等六维连续数据,量化成分层的离散 Token。为了同时捕捉市场的 “宏观趋势” 与 “微观细节”,Kronos 采用分层 Token 设计,将每个 Token 拆分为粗粒度子 Token、细粒度子 Token两个部分。

其中,粗粒度子 Token是对原始连续 K 线数据的低保真重构表示,负责捕捉 “价格趋势、成交量量级” 等宏观特征;细粒度子 Token是对粗粒度表示的残差或细节修饰,负责捕捉市场的微观结构、具体幅度的精确值以及高频波动细节。简单来说就是粗粒负责看大势,细粒负责看细节。

量化后的 Token 会再经过 “Tokenizer Decoder” 重建出 K 线序列(图下方的 Reconstruction),确保 Token 既完成了离散化,又保留了原始 K 线的核心信息。

这里有一个极具技术深度的亮点。金融数据是连续型数据,理论上可取无限多个值,形成 “无限状态空间”。传统离散化常用等距分段或固定区间,不仅会把 100.1 和 100.2 这种 “语义相似但数值略差” 的情况强行拆分,还会因状态无限导致模型参数无法承载 ,进而导致计算复杂度高、泛化能力失效” 的问题

因此,Kronos 引入了二元球面量化(BSQ)技术。它将高维向量投影到超球面上,寻找相似的投影。这意味着,即便价格数值有微小波动,只要形态和方向相似,它们就会被编码为同一个 Token。这个过程就像我们在自然语言中把“高兴”“喜悦”视为 “同义词”。这也是 Kronos 具有抗噪能力的来源。通过这个精妙的分词器,Kronos成功为金融市场编写了一本专属的《K线词典》。

拥有了专属的‘金融单词’Token之后,下一步就是让模型学会‘阅读’——自回归预训练(Autoregressive Pre-training)。这一阶段的目标是让模型学习 “市场语言 Token 的序列逻辑”。Kronos 采用了与 GPT 一脉相承的自回归预训练目标,得益于这种 Decoder-only(仅解码器) 的架构设计,Kronos 天生就具备了生成能力。它能根据过去的一系列“金融词汇”,来预测出下一个最可能出现的“金融词汇”。

在 Kronos 进行预训练或预测时,自回归模型严格遵循顺序依赖关系: 第一步:先基于历史 Token 的信息,预测下一个 Token 的粗粒度子 Token(k_c位)(比如图中 Header 输出的 “3”);

第二步:再通过 “交叉注意力(Cross Attention)” 结合已预测的粗粒度信息,进一步预测对应的细粒度子 Token(k_f 位)(比如 Header 输出的 “4”)。

为了训练这个大脑,研究团队喂给它来自XSHG(上海证券交易所)、XNAS(纳斯达克)、XJPX(东京证券交易所)、加密货币(Crypto)、外汇(Forex)等全球 45 个交易所、超过 120 亿条 K 线记录的庞大语料库。在这个过程中,Kronos 学会了金融市场的‘通用语法’,掌握了跨资产、跨地域的普遍涨跌规律。

论文中的实测数据极具说服力地验证了它的零样本迁移能力。当将在包含美股(XNAS)在内的全球45个交易所多市场语料上预训练的Kronos,直接应用于未见过的A股(XSHG)市场进行预测时,其预测准确度(RankIC)衰减幅度仅为5%-10%;作为对比,传统时序模型在相同跨市场零样本场景下,性能衰减达35%-45%。这种巨大差异的本质是因为传统模型依赖的是“数字的拟合”,仅学习特定市场的数值分布规律,而Kronos掌握的是跨市场通用的金融语义逻辑,这类由市场参与者行为逻辑决定的语义规律,在不同市场中具有一致性,因此泛化能力更强。

从回测到“平行宇宙”:Kronos 的实战想象力

刚才提到Kronos具有合成数据的能力,这个功能我们可以用起来。

传统回测最大的痛点是历史只有一次。一个策略在过去赚钱,究竟是因为逻辑过硬,还是仅仅运气好,赶上了适合它的那一段历史?我们无从知晓。现在,Kronos给了我们创造了一个实验室条件。你可以让它基于2020年1月的数据,生成1000种“没有发生但理论上可能发生”的后续走势。如果你的策略在真实历史里大赚,但在Kronos生成的1000个“平行宇宙”里有600个都亏得一塌糊涂,说明你的策略只是“运气好”,撞对了这段行情。反之,如果在90%的平行宇宙里都表现稳健,我们才能充满信心地说:这个策略的逻辑是真的过硬。 这,就是从“回测”到“压力测试”的质变。它可以解决量化策略的“幸存者偏差”问题。

此外,Kronos 的开源或许也为个人开发者和中小机构提供了一条‘小样本真数据 + 大规模合成数据’的高效路径。 我们仅需购买近期的真实高频数据作为‘种子’(Prompt)来确保逻辑的有效性,让Kronos 以此为基础,低成本生成无限量的变体数据。 这意味着,开发者无需采购昂贵的超长历史数据,仅凭少量的真数据作为引子,就能通过 Kronos 构建出涵盖各种极端行情和不同波动率的庞大训练集。这极大地降低了量化研究的数据门槛,让‘数据贫困’的个人开发者也能训练出泛化能力强的深度学习策略。

争议与反思:预训练模型是量化的终点吗?

质疑声音的关注点主要是围绕它是否具有实盘价值展开的:有人震惊于kronos样本外测试只用了 2024 年这一小段时间。他认为真正的量化策略至少要跨越牛熊、回测 5 到 10 年来验证稳健性,仅仅用 2024 年的数据无法证明策略在“熔断”、“股灾”或“大放水”等极端环境下的生存能力。也有人认为论文只谈 MSE(均方误差)、MAE(平均绝对误差),不谈回测收益率曲线这种论文纯粹是为了发文章而发,实盘肯定会亏损。

从实战的角度讲,他们的质疑是在理的。如果我们不承认这一点,就是盲目吹捧。

但是,站在 AI 研究的视角,在大语言模型的研究范式中,衡量标准通常是 Token 的预测准确率。对于高频/分钟级 K 线来说,一年的数据包含的 Token 数量可能有数百万级,在统计学上对于验证“模型是否收敛”是足够的。并且,Kronos 本质上是一个生成式模型,它的任务是‘复原市场’,而不是‘战胜市场’。 MAE 和 MSE 低,说明模型能很好地理解市场的波动规律,知道下一步大概率会在哪里震荡。但这并不意味着它能精准捕捉 Alpha。

这就好比,我们可以让 GPT 根据需求写出完美的 Python 代码,但如果你让 GPT-4 去预测哪只股票会涨,它也是瞎蒙。所以,直接裸用预训练模型做交易,亏钱是必然的,但这不代表模型没价值,只代表打开方式不对。

总的来说,Kronos 把K 线序列被重构为了充满语义的句子,把每一根 K 线变成一个承载信息的‘单词’Token,给我们在时序研究中确实带来新的思考角度。

本期问题

本期题图我们使用了某大学的一张照片。猜猜这是哪所大学?

Jthjthh@wikimedia